Hadoop权威指南
1TB的数据集用100个1TB的硬盘存储可提高读写速度,为了不浪费我们可以存储100个1TB的数据集到100个1TB的硬盘中,但是会遇到很多问题
①硬件故障问题,为了解决这个问题,最常见的做法是复制:系统保存数据的复本(Hadoop的做法)。
②来自100个硬盘的零碎数据如何正确的复原来的数据集,以便分析数据。解决方法:MapReduce编程模型抽象出这些硬盘读/写问题并将其转换为对一个数据集的计算。
Hadoop是一个可靠的且可扩展的存储和分析平台
MapReduce分为map阶段和reduce阶段
protected void map(NCDC){
return (1950,0)(1950,22)(1950,-11)(1949,111)(1949,78);
}
经过MapReduce框架处理后-->(1949,[111,78])(1950,[0,22,-11])
protected void reduce((1949,[111,78])(1950,[0,22,-11])){
找出年份温度的最大值;
return max;
}