Hadoop权威指南(第2版)--第1章

1.RAIDHDFS的区别

2.MapReduce编程模型:线性可伸缩,使用无共享框架,将问题分为独立的块,再进行并行计算。

3.Hadoop提供一个可靠的共享存储和分析系统,HDFS实现存储,而MapReduce实现分析处理。

4.磁盘寻址时间的提高远远慢于传输速率的提高。寻址是将磁头移动到磁盘位置进行读写操作的过程,它是导致磁盘操作延迟的主要原因,而传输速率取决于磁盘的带宽。

5.数据库系统只更新一小部分记录时,传统的B树更有优势;但数据库系统更新大部分数据时,B树的效率比MapReduce低得多,因为需要使用“排序/合并”来重建数据库。

6.区别MapReduce和关系数据库RDBMS

(1)MapReduce比较适合于批处理的方式处理需要分析的整个数据集,尤其是即席分析

(2)关系数据库适用于“点查询”和更新,数据集被索引后,数据库系统能够提供低延迟的数据检索和快速的少量数据更新。

  MapReduce适合一次写入、多次读取数据的应用;RDBMS更适合持续更新的数据集。

(3)它们所操作的数据集的结构化程度。MapReduce对于非结构化或半结构化数据非常有效。

7.结构化数据:具有既定格式的实体化数据,诸如XML文档、满足特定预定义格式的数据库表

半结构化数据:比较松散,可能有格式,但常被忽略;

非结构化数据:没有特别的内部结构,如纯文本、图像数据

8.MapReduce的设计目标服务于那些只需要数分钟或数小时即可完成的作业,并且运行于内部通过高速网络连接的单一数据中心内,且该数据中心内的计算机需要由可靠的、定制的硬件构成。

9.Hadoop项目生态圈:

9.1 Common

9.2 Avro

9.3 MapReduce

9.4 HDFS

9.5 Pig

9.6 Hive

9.7 HBase

9.8 ZooKeeper

9.9 Sqoop

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值