易学笔记-第1章 初识Hadoop(1)

第1章 初识Hadoop/1.1 数据换算单位

  • 数据换算单位
  1. 数据换算单位
    1. Kilo    K  1K = 1,024个字节
    2. Meg     M  1M = 1024K
    3. Giga    G  1G = 1024M
    4. Tera    T  1T = 1024G
    5. Peta    P  1P = 1024T
    6. Exa     E  1E = 1024P
    7. Zetta   Z  1Z = 1024E
    8. Yotta   Y  1Y = 1024Z

第1章 初识Hadoop/1.2 数据的存储与分析

  • 数据的存储与分析
  1. Hadoop
    1. HDFS(Hadoop Distributed File System):文件系统,用于分布式存储数据,特点
      1. 一个文件保存3个副本
    2. MapReduce:分布式计算,擅长于整个数据集的动态查询

第1章 初识Hadoop/1.3 相对于其他系统的优势

  • 相对于其他系统的优势

第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.1 关系型数据库管理系统

  • 关系型数据库管理系统
  1. 问题:为什么用MapReduce,而不使用关系型数据库进行批量分析呢?
    1. 关系型数据库
      1. 往往存在大量的数据更新,这就存在着一个寻址成本(寻址:将磁头移动到特定硬盘位置读写操作的过程)
      2. 适合点查询和更新
    2. MapReduce
      1. 比较适合以批处理的方式分析整个数据集的问题,尤其是动态分析
      2. 适合一次写入,多次读取
  2. 两者差异:
    1. 结构化程度对比
      1. 数据库适合结构化数据
      2. MapReduce比较适合半结构化数据或者非结构化数据
    2. MapReduce的运行时间随时集群化而降低,但是数据库的SQL查询一般不具备这种特性

第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.2 高性能计算

  • 高性能计算(high performance computing:HPC)
  1. 高性能计算采用作业分散到集群的各个节点上,然后节点访问共有的文件系统。如果数据量巨大,各个节点的带宽瓶颈问题会非常突出
  2. MapReduce
    1. 尽量在节点上存储本地数据,以降低数据的本地快速访问,同时采用网络拓扑结构保留带宽
    2. MapReduce能够实现失效检查,这意味着各个任务之间是独立的

第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.3 志愿计算

  • 志愿计算
  1. 志愿项目
    1. SETI(对外星智能的探索(search for extraterrestrial intelligence))
    2. SLPN:搜索大素数(Search large prime number)
    3. Folding
  2. 志愿服务:志愿服务将问题分解为多个块,每一块称为一个工作单元,然后将往世界各地进行分析
  3. 与MapReduce的比较:
    1. 志愿计算适合成千上万的CPU并行工作,花费的是CPU时间,而MapReduce花费的是网络带宽时间
    2. 志愿计算不要求高速网络,而MapReduce 数据中心内有高速的网络
    3. 志愿服务的接入的计算机是不可信的,而MapReduce 连接数据中心的计算机是安全可靠的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

易学笔记(qq:1776565180)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值