Hadoop入门概念

最新推荐文章于 2023-02-05 18:11:13 发布

IvyYin

最新推荐文章于 2023-02-05 18:11:13 发布

阅读量227

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/sinat_20177327/article/details/78575691

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、什么是Hadoop？

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称 HDFS。 HDFS 有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS 放宽了（relax） POSIX 的要求，可以以流的形式访问（streaming access）文件系统中的数据。
Hadoop 的框架最核心的设计就是： HDFS 和 MapReduce。 HDFS 为海量的数据提供了存储，MapReduce 为海量的数据提供了计算。

2、Hadoop的优点？

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。
Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
Hadoop 还是可伸缩的，能够处理 PB 级数据。
Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
高可靠性：Hadoop 按位存储和处理数据的能力值得人们信赖
高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性：Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快
高容错性：Hadoop 能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本:与一体机、商用数据仓库以及 QlikView、 Yonghong Z-Suite 等数据集市相比， hadoop 是开源的，项目的软件成本因此会大大降低。
Hadoop 带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。 Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

3、MapReduce的过程？

1）输入和拆分：
不属于map和reduce的主要过程，但属于整个计算框架消耗时间的一部分，该部分会为正式的map准备数据。
（1）分片（split）操作：split只是将源文件的内容分片形成一系列的 InputSplit，每个 InputSpilt 中存储着对应分片的数据信息（例如，文件块信息、起始位置、数据长度、所在节点列表…），并不是将源文件分割成多个小文件，每个InputSplit 都由一个 mapper 进行后续处理。每个分片大小参数是很重要的，splitSize 是组成分片规则很重要的一个参数，该参数由三个值来确定：
minSize：splitSize 的最小值，由 mapred-site.xml 配置文件中 mapred.min.split.size 参数确定。
maxSize：splitSize 的最大值，由 mapred-site.xml 配置文件中mapreduce.jobtracker.split.metainfo.maxsize 参数确定。
blockSize：HDFS 中文件存储的快大小，由 hdfs-site.xml 配置文件中 dfs.block.size 参数确定。
splitSize的确定规则：splitSize=max{minSize，min{maxSize，blockSize}}
（2）数据格式化（Format）操作：
将划分好的 InputSplit 格式化成键值对形式的数据。其中 key 为偏移量，value 是每一行的内容。值得注意的是，在map任务执行过程中，会不停的执行数据格式化操作，每生成一个键值对就会将其传入 map，进行处理。所以map和数据格式化操作并不存在前后时间差，而是同时进行的。
2)Map 映射：
是 Hadoop 并行性质发挥的地方。根据用户指定的map过程，MapReduce 尝试在数据所在机器上执行该 map 程序。在 HDFS中，文件数据是被复制多份的，所以计算将会选择拥有此数据的最空闲的节点。在这一部分，map内部具体实现过程，可以由用户自定义。
3)Shuffle 派发：
Shuffle 过程是指Mapper 产生的直接输出结果，经过一系列的处理，成为最终的 Reducer 直接输入数据为止的整个过程。这是mapreduce的核心过程。该过程可以分为两个阶段：
Mapper 端的Shuffle：由 Mapper 产生的结果并不会直接写入到磁盘中，而是先存储在内存中，当内存中的数据量达到设定的阀值时，一次性写入到本地磁盘中。并同时进行 sort（排序）、combine（合并）、partition（分片）等操作。其中，sort 是把 Mapper 产生的结果按照 key 值进行排序；combine 是把key值相同的记录进行合并；partition 是把数据均衡的分配给 Reducer。
Reducer 端的 Shuffle：由于Mapper和Reducer往往不在同一个节点上运行，所以 Reducer 需要从多个节点上下载Mapper的结果数据，并对这些数据进行处理，然后才能被 Reducer处理。
4)Reduce 缩减：
Reducer 接收形式的数据流，形成形式的输出，具体的过程可以由用户自定义，最终结果直接写入hdfs。每个reduce进程会对应一个输出文件，名称以part-开头。

IvyYin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop入门概念

1、什么是Hadoop？Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称 HDFS。 HDFS 有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且
复制链接

扫一扫