易学笔记-第1章初识Hadoop（1）

易学笔记(qq:1776565180)

于 2018-11-12 09:35:37 发布

阅读量169

点赞数

分类专栏： Hadoop大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011830122/article/details/83986880

版权

Hadoop大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第1章初识Hadoop/1.1 数据换算单位

数据换算单位

数据换算单位
1. Kilo K 1K = 1，024个字节
2. Meg M 1M = 1024K
3. Giga G 1G = 1024M
4. Tera T 1T = 1024G
5. Peta P 1P = 1024T
6. Exa E 1E = 1024P
7. Zetta Z 1Z = 1024E
8. Yotta Y 1Y = 1024Z

第1章初识Hadoop/1.2 数据的存储与分析

数据的存储与分析

Hadoop
1. HDFS（Hadoop Distributed File System）：文件系统，用于分布式存储数据，特点
  1. 一个文件保存3个副本
2. MapReduce：分布式计算，擅长于整个数据集的动态查询

第1章初识Hadoop/1.3 相对于其他系统的优势

相对于其他系统的优势

第1章初识Hadoop/1.3 相对于其他系统的优势/1.3.1 关系型数据库管理系统

关系型数据库管理系统

问题：为什么用MapReduce，而不使用关系型数据库进行批量分析呢？
1. 关系型数据库
  1. 往往存在大量的数据更新，这就存在着一个寻址成本（寻址：将磁头移动到特定硬盘位置读写操作的过程）
  2. 适合点查询和更新
2. MapReduce
  1. 比较适合以批处理的方式分析整个数据集的问题，尤其是动态分析
  2. 适合一次写入，多次读取
两者差异：
2. 结构化程度对比
  1. 数据库适合结构化数据
  2. MapReduce比较适合半结构化数据或者非结构化数据
3. MapReduce的运行时间随时集群化而降低，但是数据库的SQL查询一般不具备这种特性

第1章初识Hadoop/1.3 相对于其他系统的优势/1.3.2 高性能计算

高性能计算（high performance computing：HPC）

高性能计算采用作业分散到集群的各个节点上，然后节点访问共有的文件系统。如果数据量巨大，各个节点的带宽瓶颈问题会非常突出
MapReduce
1. 尽量在节点上存储本地数据，以降低数据的本地快速访问，同时采用网络拓扑结构保留带宽
2. MapReduce能够实现失效检查，这意味着各个任务之间是独立的

第1章初识Hadoop/1.3 相对于其他系统的优势/1.3.3 志愿计算

志愿计算

志愿项目
1. SETI（对外星智能的探索（search for extraterrestrial intelligence））
2. SLPN:搜索大素数(Search large prime number)
3. Folding
志愿服务：志愿服务将问题分解为多个块，每一块称为一个工作单元，然后将往世界各地进行分析
与MapReduce的比较：
1. 志愿计算适合成千上万的CPU并行工作，花费的是CPU时间，而MapReduce花费的是网络带宽时间
2. 志愿计算不要求高速网络，而MapReduce 数据中心内有高速的网络
3. 志愿服务的接入的计算机是不可信的，而MapReduce 连接数据中心的计算机是安全可靠的

易学笔记(qq:1776565180)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

易学笔记(qq:1776565180) 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。