HDFS介绍
-
HDFS就是分布式文件管理系统,适合一次写入,多次读出,不支持修改
-
优缺点:(优)有副本高容错,处理大数据;(缺)不适合处理小文件,不合适低延迟处理数据
-
HDFS组成
NameNode(nn) 管理元数据,处理客户端请求 DataNode(dn) 储存实际数据块,执行客户端操作 SecondaryNameNode 辅助nn,定期完成checkpoint操作,不可作为热备 -
HDFS文件块(block)默认情况下为128M,传输时间1%为寻址时间,nn寻址时间为10ms,100M/s为一般速度。如果block太小会增加寻址时间,如果太大会增加传输时间,HDFS块的大小取决于传输磁盘效率。
-
HDFS命令
start-dfs.sh/stop-yarn.sh 启动hdfs/关闭yarn hadoop fs (-moveFromLocal/-put/-appendToFile/-copyFromLocal/ )本地文件 集群目录路径 本地剪切至hdfs/本地复制/追加一个文件到已存在文件末尾/与put相同 hadoop fs (-copyToLocal/-get)集群文件 本地路径 从hdfs下载到本地 hadoop fs -getmerge 集群目录路径 本地文件名 合并一个目录下的多个文件到一个文件 hadoop fs -setrep n 文件路径 设定n个文件副本 -
Windows下HDFS客户端
-
配置环境变量
-
创建maven工程
-
配置maven变量
<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency><
-