大数据入门：Hadoop是如何工作的

最新推荐文章于 2023-02-07 16:12:22 发布

加米谷大数据张老师

最新推荐文章于 2023-02-07 16:12:22 发布

阅读量474

点赞数

分类专栏：大数据文章标签：大数据 hadoop 分布式分布式计算

原文链接：http://www.dtinone.net/news/922.html

版权

大数据专栏收录该内容

333 篇文章 14 订阅

订阅专栏

海量数据价值的挖掘，需要大数据技术框架的支持，在目前的大数据平台搭建上，Hadoop是主流的选择之一，而精通Hadoop的大数据人才，也是企业竞相争取的专业技术人才。大数据技术Hadoop所得到的重视，也带来了大家对Hadoop的学习热情。今天我们就从大数据入门的角度，来分享一下Hadoop是如何工作的。

Hadoop最初由雅虎的Doug Cutting创建，其核心的灵感，就是MapReduce，当然，到现在MapReduce也是Hadoop的核心组件。

大数据技术Hadoop

MapReduce最初被设计用来处理分布在多个并行节点的PB级和EB级数据，在廉价的服务器集群上，就能实现快速准确的数据处理，将大数据分成多个部分，每个部分都可以被同时处理和分析，数据处理的效率和规模都得到了提升。

而在Hadoop系统框架当中，MapReduce仍然负责关键性的分布式计算，对于结构化、非结构化的数据，都能实现很好的处理。而进行分布式计算的前提，是先将数据进行分布式存储。

这就是Hadoop的分布式文件系统HDFS。HDFS将大数据打碎成“部分”，载入到PC硬件的多个节点当中，各“部分”被复制多次，并加载到文件系统。这样，如果一个节点失效，另一个节点包含失效节点数据的副本，大大提升了数据存储的可靠性。

一旦数据被加载到集群中，它就准备好通过MapReduce框架进行分析。

当客户提交一个“匹配”的任务，HDFS给到一个被称为作业跟踪器的节点。该作业跟踪器引用名称节点，以确定完成工作需要访问哪些数据，以及所需的数据在集群的存储位置。MapReduce在每个节点同时、并行处理数据，当每个节点处理完指定的作业，它会存储结果。

客户通过任务追踪器启动“Reduce”任务，总map阶段存储在各个节点上的结果数据，然后得到最终数据结果，对整体结果进行输出。

总体来说，大数据技术Hadoop在面对大规模数据处理任务时，尤其是不要求高时效性的数据处理任务上，是完全能够满足需求的，并且不会给企业带来更大的成本压力。