什么是HDFS?
分布式文件系统则意味着跨越多台计算机,引入网络编程,要处理节点故障
HDFS分布式冗余可扩展的文件系统,使用流式数据访问模式存储超大文件,运行在商用硬件集群上
1) 流式数据访问
Java的InputStream/OutputStream
一次写入,多次读取是最高效的访问模式
2) 超大文件
3) 商用硬件
并非高可靠的硬件,节点故障还是比较容易发生,要求HDFS被设计成高可用HA和易扩展
HDFS不适用于?
1) 时间延迟低的数据访问:HDFS高数据吞吐量,以时间延迟为代价
2) 大量的小文件:占用内存,一个元数据约150字节
3) 多用户写入,任意修改文件:HDFS只支持单用户写入,且写操作只能append,无法任意位置修改