Hadoop要解决的两个问题:
1.海量数据的存储---HDFS
2.海量数据的分析-----MapReduce
HDFS设计目标:
1.Very large files
2.Streaming data access
write-one,read-many-times
3.Commodity hardware
HDFS架构:
Block:一个文件分块,默认64M
NameNode:保存整个文件系统的目录信息,文件信息以及文件相应的分块信息。
DataNode:用于存储Blocks。
HDFS的HA策略:NameNode一旦当机,整个文件系统将无法工作。如果NameNode中的数据丢失,整个文件系统也就丢失了。
2.X开始,HDFS支持NameNode的active-standy模式。