第一章 初识Hadoop

1. 2013 全球数据总量 4.4 ZB 预计2020 44ZB 1ZB=1000EB=1000 000 PB 1PB=1024TB
2. 个人产生的数据在不断增长 物联网产生的数据
3. 大数据胜于好算法
  • 对于某些应用来(譬如根据以往的偏好来推荐电影和音乐),不论算法有多牛,基于小数据的推荐效果往往都不如基于大量可用数据的一般算法的推荐效果
多硬盘读取遇到的问题
  • 硬件故障
  • 数据的正确性如何保证
MapReduce
  • 每次查询需要处理整个数据集或至少一个数据集的绝大部分
  • 本质是一个批处理系统 不适合交互式分析
硬盘发展趋势: 寻址时间的提升远远不敌于传输速率的提升
MapReduce 适合一次写入、多次读取数据应用,关系型数据库则更适合持续更新的数据集
hadoop 对非结构化或半结构化数据非常有效
网格计算
  • hadoop 尽量在计算节点上存储数据,以实现数据的本地快速访问。数据本地化特性是Hadoop 数据处理的核心,并因此而获得良好的性能
志愿计算
hadoop 三大设计目标
  • 为只需要短短几分钟或几个小时就可以完成的作业提供服务
  • 运行于同一个内部有高速网络连接的数据中心内
  • 数据中心内的计算机都是可靠的、专门的硬件
GFS 谷歌分布式文件系统

转载于:https://my.oschina.net/mrq/blog/3098659

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值