Hadoop
**HDFS要点
- 文件的线性分割------Block; 偏移量(文件以二进制存储,计算机最小单位byte,hdfs解决了中文被拆分问题)
- Block需要均匀的分散存储在集群节点之中,副本的数量不要超过集群节点的数量(相同的数据在同一节点存储多份没有意义)。
- 单个Block的大小是一致的(hadoop2.x以上一个Block的大小是128MB),文件和文件的大小可以不一致
- Block的副本数是可以设置的,默认是3个。根据数据的重要性和访问量的大小,增加Block的数量,会增加计算向数据移动的成功率,缺点:增加Block的数量会增加存储空间的大小,需要更多的磁盘存储。
- 已上传的文件Block,可以修改数量,大小不变
- 文件只支持一次写入,多次读取,同一时刻只能有一个写入者。写入会引起“蝴蝶效应”,牵一发而动全身,不容许!!!
- 文件支持append追加数据**