1.RAID和HDFS的区别
2.MapReduce编程模型:线性可伸缩,使用无共享框架,将问题分为独立的块,再进行并行计算。
3.Hadoop提供一个可靠的共享存储和分析系统,HDFS实现存储,而MapReduce实现分析处理。
4.磁盘寻址时间的提高远远慢于传输速率的提高。寻址是将磁头移动到磁盘位置进行读写操作的过程,它是导致磁盘操作延迟的主要原因,而传输速率取决于磁盘的带宽。
5.数据库系统只更新一小部分记录时,传统的B树更有优势;但数据库系统更新大部分数据时,B树的效率比MapReduce低得多,因为需要使用“排序/合并”来重建数据库。
6.区别MapReduce和关系数据库RDBMS
(1)MapReduce比较适合于批处理的方式处理需要分析的整个数据集,尤其是即席分析。
(2)关系数据库适用于“点查询”和更新,数据集被索引后,数据库系统能够提供低延迟的数据检索和快速的少量数据更新。
MapReduce适合一次写入、多次读取数据的应用;RDBMS更适合持续更新的数据集。
(3)它们所操作的数据集的结构化程度。MapReduce对于非结构化或半结构化数据非常有效。
7.结构化数据:具有既定格式的实体化数据,诸如XML文档、满足特定预定义格式的数据库表
半结构化数据:比较松散,可能有格式,但常被忽略;
非结构化数据:没有特别的内部结构,如纯文本、图像数据
8.MapReduce的设计目标服务于那些只需要数分钟或数小时即可完成的作业,并且运行于内部通过高速网络连接的单一数据中心内,且该数据中心内的计算机需要由可靠的、定制的硬件构成。
9.Hadoop项目生态圈:
9.1 Common
9.2 Avro
9.3 MapReduce
9.4 HDFS
9.5 Pig
9.6 Hive
9.7 HBase
9.8 ZooKeeper
9.9 Sqoop