1 .
传统的关系型数据库 | MapReduce | |
---|---|---|
数据大小 | GB | PB |
数据读取 | 交互式和批处理 | 批处理 |
更新 | 多次读/写 | 一次写入,多次读取 |
事务 | ACID | 无 |
结构 | 写时模式 | 读时模式 |
完整性 | 高 | 低 |
横向扩展 | 非线性的 | 线性的 |
2.数据本地化特性是Hadoop数据处理的核心
3.SETI@home :Search for Extra-Terrestrial Intelligence,在该项目中,志愿者把自己的计算机CPU的空闲时间贡献出来分析无线天文望远镜的数据,借此寻找外星智慧生命型号。志愿计算将问题分成很多块,每一块成为一个数据单元,发到各地的计算机上进行分析。完成分析后,结果发回服务器。为防止欺骗,每个工作单元要发送到3台不同的机器上执行而且收到的结果中至少有两个相同才会被接受。
4.SETI@home与Hadoop的不同:SETI@home问题是CPU高度密集的,适合在全球成千上万台计算机上运行,因为计算所花的时间远远超过数据的传输时间,也就是说,志愿者贡献的是CPU周期,而不是网络带宽。Hadoop 则是为了只需要短短几分钟或几个小时就可以完成的作业提供服务,并且数据中心内的计算机都是可靠的,专门的硬件。
5.本书的结构及阅读顺序: