本章开始进入这本书的正文。
最开始的第一章介绍了分布式文件系统(DFS)。信息爆炸时代带来的后果就是,单机处理计算能力已经更不上信息的增长速度了。在这种需求的启动下,用分布式系统来处理大规模数据的这种模式开始出现。由于此时,数据时分布在集群的不同单机中,文件系统自然要区别于单机。DFS便孕育而生。
DFS所处理的文件有两个特点。a.存储单位比传统OS中的磁盘块要大很多;b.提供数据冗余机制来防止数据分布在上千块磁盘上是频繁发生故障.
2.1.1 计算节点的物理结构
并行计算有时候又称为集群计算(Cluster Computing)。
MapReduce简单来说,只是一个计算框架。编程人员不需要考虑繁杂的数据划分,同步通讯,