1. 2013 全球数据总量 4.4 ZB 预计2020 44ZB 1ZB=1000EB=1000 000 PB 1PB=1024TB
2. 个人产生的数据在不断增长 物联网产生的数据
3. 大数据胜于好算法
- 对于某些应用来(譬如根据以往的偏好来推荐电影和音乐),不论算法有多牛,基于小数据的推荐效果往往都不如基于大量可用数据的一般算法的推荐效果
多硬盘读取遇到的问题
MapReduce
- 每次查询需要处理整个数据集或至少一个数据集的绝大部分
- 本质是一个批处理系统 不适合交互式分析
硬盘发展趋势: 寻址时间的提升远远不敌于传输速率的提升
MapReduce 适合一次写入、多次读取数据应用,关系型数据库则更适合持续更新的数据集
hadoop 对非结构化或半结构化数据非常有效
网格计算
- hadoop 尽量在计算节点上存储数据,以实现数据的本地快速访问。数据本地化特性是Hadoop 数据处理的核心,并因此而获得良好的性能
志愿计算
hadoop 三大设计目标
- 为只需要短短几分钟或几个小时就可以完成的作业提供服务
- 运行于同一个内部有高速网络连接的数据中心内
- 数据中心内的计算机都是可靠的、专门的硬件
GFS 谷歌分布式文件系统
转载于:https://my.oschina.net/mrq/blog/3098659