HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。到底HDFS有哪些特点呢?
优点
a)高容错性
i.保存多个副本,且提供容错机制。
ii.副本丢失或宕机自动恢复。默认存3份。
b)运行在廉价的机器上(商用机)
i.通过副本提高可靠性
ii.提供了容错和恢复机制
c)适合批处理
i.移动计算而非数据
ii.数据位置暴露给计算框架。NameNode上有位置
d)适合大数据的处理,多大?多小?
i.TB,甚至PB级数据
ii.百万规模以上的文件数量
iii.10K+节点规模
iv.HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。
e)流式数据访问
i.一次写入,多次读取,高吞吐量,所以可以同时处理大量数据
缺点
a)不擅长低延迟数据访问
比如毫秒级
b)不擅长小文件的分区
占用NameNode大量内存
磁盘寻道时间超过读取时间
c)不擅长并发写入,文件随机修改
一个文件只能有一个写入者
仅支持append,也就是添加(有组件实现删等)