第1章 初识Hadoop/1.1 数据换算单位
- 数据换算单位
- 数据换算单位
- Kilo K 1K = 1,024个字节
- Meg M 1M = 1024K
- Giga G 1G = 1024M
- Tera T 1T = 1024G
- Peta P 1P = 1024T
- Exa E 1E = 1024P
- Zetta Z 1Z = 1024E
- Yotta Y 1Y = 1024Z
第1章 初识Hadoop/1.2 数据的存储与分析
- 数据的存储与分析
- Hadoop
- HDFS(Hadoop Distributed File System):文件系统,用于分布式存储数据,特点
- 一个文件保存3个副本
- MapReduce:分布式计算,擅长于整个数据集的动态查询
- HDFS(Hadoop Distributed File System):文件系统,用于分布式存储数据,特点
第1章 初识Hadoop/1.3 相对于其他系统的优势
- 相对于其他系统的优势
第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.1 关系型数据库管理系统
- 关系型数据库管理系统
- 问题:为什么用MapReduce,而不使用关系型数据库进行批量分析呢?
- 关系型数据库
- 往往存在大量的数据更新,这就存在着一个寻址成本(寻址:将磁头移动到特定硬盘位置读写操作的过程)
- 适合点查询和更新
- MapReduce
- 比较适合以批处理的方式分析整个数据集的问题,尤其是动态分析
- 适合一次写入,多次读取
- 关系型数据库
- 两者差异:
- 结构化程度对比
- 数据库适合结构化数据
- MapReduce比较适合半结构化数据或者非结构化数据
- MapReduce的运行时间随时集群化而降低,但是数据库的SQL查询一般不具备这种特性
- 结构化程度对比
第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.2 高性能计算
- 高性能计算(high performance computing:HPC)
- 高性能计算采用作业分散到集群的各个节点上,然后节点访问共有的文件系统。如果数据量巨大,各个节点的带宽瓶颈问题会非常突出
- MapReduce
- 尽量在节点上存储本地数据,以降低数据的本地快速访问,同时采用网络拓扑结构保留带宽
- MapReduce能够实现失效检查,这意味着各个任务之间是独立的
第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.3 志愿计算
- 志愿计算
- 志愿项目
- SETI(对外星智能的探索(search for extraterrestrial intelligence))
- SLPN:搜索大素数(Search large prime number)
- Folding
- 志愿服务:志愿服务将问题分解为多个块,每一块称为一个工作单元,然后将往世界各地进行分析
- 与MapReduce的比较:
- 志愿计算适合成千上万的CPU并行工作,花费的是CPU时间,而MapReduce花费的是网络带宽时间
- 志愿计算不要求高速网络,而MapReduce 数据中心内有高速的网络
- 志愿服务的接入的计算机是不可信的,而MapReduce 连接数据中心的计算机是安全可靠的