Kunpeng BoostKit 使能套件：大数据场景如何实现“大鹏一日同风起”倍级性能提升？

最新推荐文章于 2024-07-12 17:53:13 发布

2401_84166278

最新推荐文章于 2024-07-12 17:53:13 发布

阅读量670

点赞数 17

分类专栏：程序员文章标签：大数据

本文链接：https://blog.csdn.net/2401_84166278/article/details/137711802

版权

Yarn 是 Hadoop 生态的三个核心模块组成之一，负责资源分配和管理。具体结构如下图所示：

在这里插入图片描述

Yarn：是一种分布式资源调度框架，采用 Master 和 Slave 的主从结构，主要由主节点 ResourceManager、ApplicationMaster 和从节点 NodeManager 组成，负责整个集群的资源管理和调度。
ResourceManager：是一个全局的资源管理器，负责整个集群的资源管理和分配。
NodeManager：运行在 Slave 节点，负责该节点的资源管理和使用。
ApplicationMaster：当用户提交应用程序时启动，负责向 ResourceManager 申请资源和应用程序的管理，与 NodeManager 进行互动。用户在使用的情况下可以通过 ApplicationMaster 得知当前任务的进度、已经执行到哪些 Job。
Container：Yarn 的资源抽象，是执行具体应用的基本单位，任何一个 Job 或应用程序必须运行在一个或多个 Container 中。

MapReduce 是 Hadoop 生态的三个核心模块组成之一，负责分布式计算。具体结构如下图所示：

在这里插入图片描述

Apache Spark 是用于大规模数据处理的统一分析引擎，具有可伸缩性、基于内存计算等特点，已经成为轻量级大数据快速处理的统一平台，各种不同的应用，如实时信息流处理、机器学习、交互式查询等，都可以通过 Spark 建立在不同的存储和运行系统上。具体结构如下图所示：

在这里插入图片描述

Apache Spark 核心：Spark Core 是 Spark 平台的基础通用执行引擎，其所有其他功能都是基于该平台执行的。它提供了内存计算和外部存储系统中的参考数据集。
Spark SQL：Spark SQL 是 Spark Core 之上的一个组件，它引入了一种名为 SchemaRDD 的新数据抽象，他提供了对结构化和半结构化数据的支持。
Spark Streaming：Spark Streaming 利用 Spark Core 的快速调度功能来执行流式分析。它采用小批量采集数据，并对这些小批量数据执行 RDD（弹性分布式数据集）转换。
MLlib：MLlib 是 Spark 上面的分布式机器学习框架，因为它是基于分布式内存的 Spark 体系结构。
Graphx：Graphx 是 Spark 顶部的分布式图形处理框架。它提供了一个用于表达图形计算的 API，可以使用 Pregel 抽象 API 对用户定义的图形进行建模。它还为此抽象提供了优化的运行时。

BoostKit 是一个应用使能套件，并不只是由一个软件包构成，而是由很多软件包组成的。

BoostKit 是部署在鲲鹏整机（服务器）环境之上，往上搭建的一个全栈优化的使能套件。具体结构如下图所示：

在这里插入图片描述
鲲鹏应用使能套件 BoostKit，释放倍级性能优势&#

关注