第3章 分布式文件系统HDFS
HDFS,全称:Hadoop Distributed File System,大数据两大核心技术:分布式存储/分布式处理;HDFS通过集群实现分布式存储
文件系统结构
两大组件
备份过程
节点之间的通信
HDFS与结点通过光纤通信,主节点和数据阶段通过光纤通信
名称节点之间通过TCP/IP通信,数据节点之间通过RPC远程调用
HDFS的局限性
HDFS存储原理
HDFS存储原理:冗余数据解决底层数据错误问题
优点:1. 加快数据传输速度;2.很容易检查出数据错误;3.保证数据可靠性
HDFS的读写过程
设置文件输入流InputStream;FileStream抽象文件基类
把系统下的hdfs-site.xml和core-site.xml文件加载出来,获取fs.default,通过hdfs://localhost:9000