1.hadoop
(1)提供一个可靠的共享存储和分析系统。HDFS和MapReduct是它的核心价值(虽然Hadoop还有其他功能)。
(2)HDFS实现数据的存储
(3)MapReduce实现数据的分析和处理
2.MapReduce
(1)是一个批量查询处理器
(2)每个查询需要处理整个数据集或至少数据集的绝大部分
(3)能够在合理的时间范围内处理针对整个数据集的动态查询,改变我们对数据的传统看法
3.为什么用MapReduce,而不用关系型数据库来对大量硬盘的大规模数据进行批量分析呢?
(1)答案来源于计算机硬盘的另一个发展趋势:寻址时间的提升远远不敌于传输速率的提升
(2)寻址是将磁头移动到特定硬盘位置进行读写操作的过程,它是导致硬盘操作延迟的主要原因
(3)传输速率取决于硬盘的带宽
(4)流数据读取模式,主要取决于传输速率
(5)数据库访问模式中包含大量的硬盘寻址
4.MapReduce与关系型数据库对比
(1)MapReduce比较适合于批处理方式处理需要分析整个数据集的问题,尤其是动态分析
(2)RDBMS比较适合于点查询和更新,数据集被索引后,数据库系统能够低延时的数据检索和快速的少量数据更新。
(3)MapReduce适合一次写入,多次读取
(4)RDBMS适合持续更新的数据集
5.MapReduce核心特征
(1)数据本地化,即尽量在计算节点上存储数据,以实现数据的本地快速访问。
(2)网络带宽是数据中心最珍贵的资源(到处复制数据很容易耗尽网络带宽)
(3)MapReduce通过显示网络拓扑结构来保留网络带宽。
6.MapReduce三大设计目标
(1)为只需短短几分钟或几小时就可完成的作业提供服务
(2)运行于同一个内部有高速网络连接的数据中心内
(3)数据中心内的计算机都是可靠的,定制的硬件
(1)提供一个可靠的共享存储和分析系统。HDFS和MapReduct是它的核心价值(虽然Hadoop还有其他功能)。
(2)HDFS实现数据的存储
(3)MapReduce实现数据的分析和处理
2.MapReduce
(1)是一个批量查询处理器
(2)每个查询需要处理整个数据集或至少数据集的绝大部分
(3)能够在合理的时间范围内处理针对整个数据集的动态查询,改变我们对数据的传统看法
3.为什么用MapReduce,而不用关系型数据库来对大量硬盘的大规模数据进行批量分析呢?
(1)答案来源于计算机硬盘的另一个发展趋势:寻址时间的提升远远不敌于传输速率的提升
(2)寻址是将磁头移动到特定硬盘位置进行读写操作的过程,它是导致硬盘操作延迟的主要原因
(3)传输速率取决于硬盘的带宽
(4)流数据读取模式,主要取决于传输速率
(5)数据库访问模式中包含大量的硬盘寻址
4.MapReduce与关系型数据库对比
(1)MapReduce比较适合于批处理方式处理需要分析整个数据集的问题,尤其是动态分析
(2)RDBMS比较适合于点查询和更新,数据集被索引后,数据库系统能够低延时的数据检索和快速的少量数据更新。
(3)MapReduce适合一次写入,多次读取
(4)RDBMS适合持续更新的数据集
5.MapReduce核心特征
(1)数据本地化,即尽量在计算节点上存储数据,以实现数据的本地快速访问。
(2)网络带宽是数据中心最珍贵的资源(到处复制数据很容易耗尽网络带宽)
(3)MapReduce通过显示网络拓扑结构来保留网络带宽。
6.MapReduce三大设计目标
(1)为只需短短几分钟或几小时就可完成的作业提供服务
(2)运行于同一个内部有高速网络连接的数据中心内
(3)数据中心内的计算机都是可靠的,定制的硬件