Kunpeng BoostKit 使能套件：大数据场景如何实现“大鹏一日同风起”倍级性能提升？(3)

最新推荐文章于 2024-07-06 22:24:40 发布

2401_84181058

最新推荐文章于 2024-07-06 22:24:40 发布

阅读量852

点赞数 18

分类专栏：程序员文章标签：大数据

本文链接：https://blog.csdn.net/2401_84181058/article/details/138412079

版权

随着科技的发展，越来越多的行业需要采集更多的数据，如何对海量数据进行分析并得出我们想要的结果就成为了我们所面临的难题，而大数据技术的迅速发展使得这个问题迎刃而解。

1.2、大数据并行计算特点天然匹配鲲鹏多核架构

海量数据需要更高的并发度来加速数据处理，在数据集非常大的情况下，如果我们跑在单核（或者是顺序化）的执行场景下，可能执行过程无法进行或者是效率极其低下，这是我们无法接受的，所以海量的数据需要更高的并发度来处理，那么鲲鹏多核计算的特点就可以完美匹配这个需求，加速大数据的计算性能，提升大数据任务的并发度。

我们以 MapReduce 模型为例进行处理和计算，如下图所示，我们所采集的源数据是一段英文，我们需要计算这段话中每一个单词所出现的次数。

在这里插入图片描述
运行过程：首先我们对源数据进行拆分，然后 Map 映射到每一个节点上进行运算，之后进行 Sort 排序，Merge 合并，最后进行结果汇总 Reduce 以形成最终的结果。

可以看到，我们将大量的计算分发到各个节点之上，这就是分布式计算，也是我们所谓的“并发度”的概念。如果我们的并发度提高了，理论上来讲，我们整个模型的执行时间也会相应缩短。

二、开源大数据整体与组件介绍

上面我们介绍了开源大数据的概念以及相应的华为鲲鹏多核计算的特点，下面介绍我们在大数据开发中经常会使用到的一些组件。

2.1、大数据组件：Hadoop-HDFS 模块

HDFS 是 Hadoop 生态的三个核心模块组成之一，负责分布式存储。具体结构如下图所示：

在这里插入图片描述

HDFS：是一种分布式存储系统，采用 Master 和 Slave 的主从结构，主要由 NameNode 和 DataNode 组成。HDFS 会将文件按固定大小切成若干块，分布式存储在所有 DataNode 中，每个文件可以有多个副本，默认副本数为 3。
NameNode：Master 节点，负责源数据的管理，处理客户端请求。
DataNode：Slave 节点，负责数据的存储和读写操作。

使用流程：用户如果想要读取存储在 HDFS 中的数据，需要先找到 NameNode，通过 NameNode 来得知我们的数据存放在哪个 DataNode 之上，当 NameNode 找到具体的数据之后，将数据返回给用户。

2.2、大数据组件：Hadoop-Yarn 模块

Yarn 是 Hadoop 生态的三个核心模块组成之一，负责资源分配和管理。具体结构如下图所示：

在这里插入图片描述

Yarn：是一种分布式资源调度框架，采用 Master 和 Slave 的主从结构，主要由主节点 ResourceManager、ApplicationMaster 和从节点 NodeManager 组成，负责整个集群的资源管理和调度。
ResourceManager：是一个全局的资源管理器，负责整个集群的资源管理和分配。
NodeManager：运行在 Slave 节点，负责该节点的资源管理和使用。
ApplicationMaster：当用户提交应用程序时启动，负责向 ResourceManager 申请资源和应用程序的管理，与 NodeManager 进行互动。用户在使用的情况下可以通过 ApplicationMaster 得知当前任务的进度、已经执行到哪些 Job。
Container：Yarn 的资源抽象，是执行具体应用的基本单位，任何一个 Job 或应用程序必须运行在一个或多个 Container 中。