《Hadoop权威指南4》第1章初识Hadoop

最新推荐文章于 2020-11-29 18:15:20 发布

bgdx520

最新推荐文章于 2020-11-29 18:15:20 发布

阅读量305

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/bgdx520/article/details/89741171

版权

大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Hadoop权威指南4

第1章初识Hadoop

第1章初识Hadoop

1.1 数据！数据！

未来的数据很大，个人，公共网页的数据等等都很多。
大数据胜于好算法。

1.2 数据的存储和分析

硬盘的读写速度很慢跟不上数据存储分析的需要。
Hadoop的，hdfs和mapreduce解决了数据的存储和分析的问题。

1.3 查询所有数据

mapreduce进行每一次查询时要处理整个数据集，适合定时批处理。

1.4 不仅仅是批处理

Hadoop有时被用于指代一个更大的、多项目组成的生态系统。这些系统都属于分布式计算和大规模数据处理的范畴。
Hbase提供在线访问，一种使用HDFS做底层存储的键值存储模型。可以对单行在线读写，也可以对数据块读写。
YARN是一个集群资源管理系统，允许任何一个分布式程序基于Hadoop集群的数据而运行。
能与Hadoop协调工作的处理模式：
交互式sql（impala、Hive）、
迭代处理（Spark）、
流处理（Storm、Spark Streaming、Samza）、
搜索（Solr）。

1.5 相较于其他系统的优势

1.5.1 关系型数据库管理系统

许多情况下，可以将MapReduce视为关系型数据库管理系统的补充。MapReduce比较适合解决需要以批处理方式分析整个数据集的问题；RDBMS适用于索引后数据的点查询和更新。MapReduce适合一次写入多次读取数据的应用，关系型数据库则更适合持续更新的数据集。当然两者渐渐也增加了对方的一些特性，区别变得模糊了。
关系型数据库操作结构化数据，Hadoop处理非结构化或半结构化的数据。

1.5.2 网格计算（grid computing）

网格计算适合计算密集型的作业，如果数据量庞大，计算节点会因为集群网络带宽的瓶颈而不得不闲下来等待数据。Hadoop尽量在计算节点存储数据，已实现数据的本地快速访问。数据本地化特性是Hadoop数据处理的核心。而且这种方式下并没有降低Hadoop处理计算密集型作业的能力。
MapReduce程序员不需要考虑数据流机制，MPI程序员要显示的处理数据流。
MapReduce程序员不必关心程序的执行顺序以及部分任务是否失效，这些都交由分布式处理框架来考虑。MPI程序员需要显示的控制作业检查点和恢复机制。

1.5.3志愿计算

志愿计算是CPU密集型的，计算所花的时间远超过工作单元数据的传输时间。志愿者贡献的是CPU周期，而不是网络带宽。
MapReduce的三大设计目标：（1）作业往往只需要几分钟或者几个小时；（2）运行在一个高速网络连接的数据中心内；（3）数据中心内的计算机都是可靠的，专门的硬件。
志愿计算接入互联网，计算机不可信，带宽也不同，数据本地化没有要求。