Kunpeng BoostKit 使能套件：大数据场景如何实现“大鹏一日同风起”倍级性能提升？

最新推荐文章于 2024-07-06 22:24:40 发布

2401_84182318

最新推荐文章于 2024-07-06 22:24:40 发布

阅读量1k

点赞数 23

分类专栏： 2024年程序员学习文章标签：大数据

本文链接：https://blog.csdn.net/2401_84182318/article/details/137658190

版权

本文介绍了鲲鹏BoostKit如何助力大数据场景实现性能提升，特别是针对Apache Spark平台的优化。通过基础加速、应用加速和开源使能，BoostKit在大数据组件如Hadoop、Hive、Spark等方面实现了性能提升，包括机器学习和图算法的深度优化，例如SVD和PageRank算法。此外，文章还探讨了BoostKit在应对大数据挑战时的解决方案，如跨源跨域查询加速和HDFS性能优化。

摘要由CSDN通过智能技术生成

2.4、大数据组件：Spark 平台

Apache Spark 是用于大规模数据处理的统一分析引擎，具有可伸缩性、基于内存计算等特点，已经成为轻量级大数据快速处理的统一平台，各种不同的应用，如实时信息流处理、机器学习、交互式查询等，都可以通过 Spark 建立在不同的存储和运行系统上。具体结构如下图所示：

在这里插入图片描述

Apache Spark 核心：Spark Core 是 Spark 平台的基础通用执行引擎，其所有其他功能都是基于该平台执行的。它提供了内存计算和外部存储系统中的参考数据集。
Spark SQL：Spark SQL 是 Spark Core 之上的一个组件，它引入了一种名为 SchemaRDD 的新数据抽象，他提供了对结构化和半结构化数据的支持。
Spark Streaming：Spark Streaming 利用 Spark Core 的快速调度功能来执行流式分析。它采用小批量采集数据，并对这些小批量数据执行 RDD（弹性分布式数据集）转换。
MLlib：MLlib 是 Spark 上面的分布式机器学习框架，因为它是基于分布式内存的 Spark 体系结构。
Graphx：Graphx 是 Spark 顶部的分布式图形处理框架。它提供了一个用于表达图形计算的 API，可以使用 Pregel 抽象 API 对用户定义的图形进行建模。它还为此抽象提供了优化的运行时。