三个备份都存在哪里
第一个备份存储在与客户端相同节点(若客户端不在集群内则随机选择,避免选择太满或者太忙的节点)
第二个备份,第二个备份放在不同机架上随机选择的节点
第三个备份放在与第二个备份相同机架的不同节点上、
HDFS通过crc32(循环冗余校验码)来校验文件是否损坏
HDFS
优势
处理并且管理PB级别的数据
处理非结构化的数据
注重数据的吞吐量
一个人写多人读无数据一致性问题
不适合做
存储小文件
大量随机读
不支持
对文件修改(只能append)
多用户写入
已经存在的文件不能重新创建会报错
hadoop fs
-ls 查看目录下文件
-du 显示路径大小
-lsr 递归显示
-rm 删除
-put 上传
-copyFromLocal 从本地拷贝 本地文件地址 hdfs文件地址
-get 从Hadoop向本地下载
-getmerge把文件合成一个
-text 转成文本
-text 文件夹/* > xx.xx写入本地文件