Kunpeng BoostKit 使能套件:大数据场景如何实现“大鹏一日同风起”倍级性能提升?

2.4、大数据组件:Spark 平台

Apache Spark 是用于大规模数据处理的统一分析引擎,具有可伸缩性、基于内存计算等特点,已经成为轻量级大数据快速处理的统一平台,各种不同的应用,如实时信息流处理、机器学习、交互式查询等,都可以通过 Spark 建立在不同的存储和运行系统上。具体结构如下图所示:

在这里插入图片描述

  • Apache Spark 核心:Spark Core 是 Spark 平台的基础通用执行引擎,其所有其他功能都是基于该平台执行的。它提供了内存计算和外部存储系统中的参考数据集。
  • Spark SQL:Spark SQL 是 Spark Core 之上的一个组件,它引入了一种名为 SchemaRDD 的新数据抽象,他提供了对结构化和半结构化数据的支持。
  • Spark Streaming:Spark Streaming 利用 Spark Core 的快速调度功能来执行流式分析。它采用小批量采集数据,并对这些小批量数据执行 RDD(弹性分布式数据集)转换。
  • MLlib:MLlib 是 Spark 上面的分布式机器学习框架,因为它是基于分布式内存的 Spark 体系结构。
  • Graphx:Graphx 是 Spark 顶部的分布式图形处理框架。它提供了一个用于表达图形计算的 API,可以使用 Pregel 抽象 API 对用户定义的图形进行建模。它还为此抽象提供了优化的运行时。

三、鲲鹏 BoostKit 使能套件介绍

3.1、鲲鹏 BoostKit 是什么?

BoostKit 是一个应用使能套件,并不只是由一个软件包构成,而是由很多软件包组成的。

BoostKit 是部署在鲲鹏整机(服务器)环境之上,往上搭建的一个全栈优化的使能套件。具体结构如下图所示:

在这里插入图片描述
鲲鹏应用使能套件 BoostKit,释放倍级性能优势,提供八大场景化应用使能套件:大数据、分布式存储、数据库、虚拟化、ARM 原生、Web/CDN、NFV 和 HPC。在接下来的过程中,我们将其分为三个部分依次介绍。

在这里插入图片描述

3.2、开源使能:开源软件可用、好用

在这里插入图片描述

  • 华为:贡献开源、主导开源,使能主流开源软件支持鲲鹏高性能。
  • 伙伴:从开源社区、鲲鹏社区获取高性能开源组件,直接编译/部署。

我们以 Hadoop 为例,首先需要让 Hadoop 运行在鲲鹏服务器上,然而这远远不够,还需要根据需求开发相关特性,以促使 Hadoop 在鲲鹏之上可以运行得更加完美、便捷,同时我们将研发的产品新特性合入、贡献到开源社区。

3.3、基础加速:超越业界水平的应用性能

这一块之所以被称为基础,是因为很多应用都会使用到该加速包,比如:NUMA 优化、KAE 加速库、IO 智能预取等。

在这里插入图片描述

  • 华为:提供基础性能优化、基础加速库和加速算法等基础加速软件包和文档,并对如何使用作出指导。
  • 伙伴:从鲲鹏社区获取基础加速软件包,在鲲鹏创新中心指导下进行编译、部署和性能优化。

我们以 KAE 加速库为例,在使用过程中所使用到的如压缩、加解密等相关功能,我们会加速这个功能,如果我们的上层应用有使用到压缩、加解密等相关功能就都会有大幅的性能提升。

3.4、应用加速:极致事务倍级应用性能

在这里插入图片描述

  • 华为:提供应用创新加速组件、算法创新组件等应用加速软件包和文档。
  • 伙伴:伙伴与华为开展联合方案设计、开发和商业实践。合作方式的变化随加速功能而变。

四、BoostKit 在开源使能上的结果

BoostKit 在开源社区中做了大量的投入,主要针对如下两个方面,全面支持开源大数据组件,并实现了 ARM CI 在社区版本上的运行。

4.1、全面支持开源大数据

在这里插入图片描述

  • 支持开源 Apache 大数据组件。
  • 支持开源 HDP 大数据组件及管理组件 Ambari。
  • 支持开源 CDH 大数据组件(注:CDH Manager 管理组件是闭源版本,当前不支持)。

4.2、开源社区接纳 ARM 生态

在这里插入图片描述

  • Hadoop、Hive、Hbase、Spark 和 Flink、ElasticSearch、Kudu 等核心组件的开源社区支持 ARM(注:Hadoop、ElasticSearch 开源社区已经提供官方版本的 ARM 软件包)。推动了 ARM 开源软件生态的发展。

五、鲲鹏 BoostKit 如何应对大数据关键挑战?

聚焦大数据关键挑战,对于存在的痛点给出解决方案,让数据处理更快、更简单。

在这里插入图片描述

5.1、遇到的问题

  1. 多样化查询无法统一,效率低。Spark SQL、Hive 等查询方式的不统一,导致查询的效率降低。
  2. IO 密集型组件性能无法满足要求。
  3. 磁盘 IO 存在瓶颈,HDFS 性能提升困难。
  4. 在数据采集过程中,由于数据是多种多样的,多样化数据格式,导致跨数据源读取数据难。
  5. 数据非共享,跨数据中心取数难。在数据读取的过程中,数据多存储在不同的数据中心,无法实现共享,跨数据中心读取数据就是一个难题。

5.2、如何应对关键挑战?

  • 针对问题 1、4、5。采用跨源跨域查询加速。采用 openLooKeng 虚拟化引擎统一数据入口,支持跨源、跨域分析,查询性能倍级提升。
  • 针对问题 2。采用 Spark 性能加速。原生机器学习/图算法深度优化,Spark 性能倍级提升。
  • 针对问题 3。采用 HDFS 性能加速。IO 智能预取,高效取数,Spark/Hbase 性能提升 20%。

六、BoostKit 机器学习/图算法的深度优化

6.1、算法深度优化实例

BoostKit 机器学习/图算法基于原生算法深度优化,促使 Spark 性能得到倍级提升,现在已经被应用到华为的伙伴业务之中,如下图所示的两个实际场景,在海量的数据集中,分别使用机器学习和图分析的算法进行建模,我们可以看到模型训练时长有大幅度的缩短,性能得到极大提升。

在这里插入图片描述
BoostKit 机器学习/图算法的优化使得在实际应用场景中,计算性能平均提升 5 倍,而上层应用无需修改!

6.2、鲲鹏算法库

  • 包括上面所提到和使用的机器学习 GBDT 算法、图分析 PageRank 算法在内,鲲鹏算法库已交付 20+ 算法,涵盖常用算法类型。

在这里插入图片描述

  • 保持与原生 Spark 算法完全一致的类和接口定义,无需上层应用做任何修改,只需要在提交任务时加入算法包即可。

采用网络公开的多维度多规模数据集算法性能提升 50%~10 倍以上。

在这里插入图片描述

七、BoostKit 做了哪些深度优化?

7.1、鲲鹏亲和性优化效果

关键优化点:

  • Communication-avoid,减少了不必要节点之间的数据通信。
  • 多核并行计算。利用鲲鹏自身优势,提高了算法多核并行度,提高数据并行度与模型并行度,降低了通信 Shuffle 的瓶颈,以实现训练速度的提升。

在这里插入图片描述
在同等计算精度,不同的数据集下,支撑机器学习算法(Covariance、Pearson、Spearman),性能提升超过 50+%,如下图所示:

在这里插入图片描述

7.2、机器学习算法优化方案:分布式 SVD 算法

SVD 算法即奇异值分解算法,是线性代数中常用的的矩阵分解算法。SVD 算法不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,是很多机器学习算法的基石。

在这里插入图片描述
在这里插入图片描述
对于传统的 SVD 算法,我们也在之上进行了创新,如下图所示:

在这里插入图片描述

7.3、图分析算法优化方案:分布式 PageRank 算法

PageRank 算法,即网页排名算法,又称网页级别算法、Google 左侧排名算法或佩奇排名算法。该算法是对搜索引擎搜索出来的结果、网页进行排名的一种算法,本质上是一种以网页之间的超链接的个数和质量作为主要因素粗略地分析网页重要性的算法。即更重要的网页会被更多其他的网页所引用,根据引用的链接计算出每个网页的 PR 值。网页的 PR 值越高则说明该网页越重要。PageRank 是 Google 用于用来标识网页的等级/重要性的一种方法,是 Google 用来衡量一个网站的好坏的唯一标准。

在这里插入图片描述
如上图所示,我们将每一个网页看做一个点,网页与网页之间的连接看成一条边,如此,便构成了图的数据结构。我们就将对这个图的数据结构进行处理。那么我们如何进行优化呢?

  • 内存占用优化:基于稀疏压缩的数据表示,使得算法的内存占用下降 30%,有效解决大数据规模下的内存瓶颈问题。
  • 收敛检测优化:简化收敛检测过程,使整体任务量减少 5%~10%。
  • 全量迭代+残差迭代组合优化:有效降低前期数据膨胀带来的 shuffle 瓶颈,整体性能可提升 0.5X~2X。

在这里插入图片描述
如上图所示,在优化之后,通过算法计算模式的自适应切换,整体 shuffle 量减少 50%,性能较优化前平均提升 50%+。

八、鲲鹏 BoostKit 机器学习&图算法的 Spark 性能加速实践

鲲鹏 BoostKit 机器学习&图算法的 Spark 性能加速实践可以在华为云平台上的“沙箱实验室”进行。

8.1、环境准备

在实验进行之前,首先会预制环境,如下图所示:

在这里插入图片描述

8.2、环境配置

由于我们的本算法是运行在 4 节点的集群上上,即运行在 4 台 ECS上,所以预制环境的过程可能较长,需要在云服务器上完成某些组件的配置,时间大概为三分钟左右。如下图所示,我们可以看到一个主节点和三个从节点。

在这里插入图片描述

8.3、部署 Hadoop、Spark 等组件

在预制环境的过程中,已经完成了部分 Zookeeper 的相关配置,我们只需要登陆每一个 agent 节点并进行少量的配置即可启动 Zookeeper,具体流程如下图所示:

在这里插入图片描述
对于 Hadoop 同理,预制环境时,已经完成 Hadoop 的安装与 Hadoop 在 server 节点的配置,对于 agent 节点,我们只需要在计算节点上少量配置,在 agent 端启动 JournalNode,在 server 端启动 Hadoop 其他组件即可,具体流程如下图所示:

在这里插入图片描述
对于 Spark,系统并没有作相关的部署,仅仅是把 Spark 下载到了集群上,之后需要我们添加 Spark 环境变量、修改 Spark 配置文件,同步到其他节点并进行任务提交,具体流程如下图所示:

在这里插入图片描述

8.4、算法库优化效果运行实践

8.4.1、运行 SVD 算法

调用算法库,代码如下:

sh bin/ml/svd_run.sh D10M1k

不调用算法库,代码如下:

sh bin/ml/svd_run_raw.sh D10M1k

8.4.2、运行 PageRank 算法

调用算法库,代码如下:

sh bin/graph/pr_run.sh cit_patents run

不调用算法库,代码如下:

sh bin/graph/pr_run_raw.sh cit_patents run

由于算法当前的默认参数没有完全利用 ECS 集群的资源,所以需要对 Spark 层的参数进行调优。

参数含义参考取值
numExectuors用于设置该应用总共需要多少executors来执行,Driver根据此参数决定分配的Exectuors个数9
executorMemory设置每个executor的内存10
executorCores设置每个executor的cpu核数,其决定了每个executor并行执行task的能力25G
driverCores运行sparkContext的Driver的cpu核数3
driverMemory运行sparkContext的Driver所在所占用的内存10G

九、相关材料获取

9.1、鲲鹏 BoostKit

在这里插入图片描述

9.2、机器学习算法加速库

在这里插入图片描述

9.3、图算法加速库

在这里插入图片描述


文章作者白鹿第一帅作者主页https://blog.csdn.net/qq_22695001,未经授权,严禁转载,侵权必究!


总结

面向多样性计算时代,华为全面开放鲲鹏全栈能力,分享多样性计算工具套件:鲲鹏应用使能套件 Kunpeng BoostKit 和鲲鹏开发套件 Kunpeng DevKit,加速产业创新,使能极简开发,携手伙伴一起构建鲲鹏计算产业生态。本系列课程主要针对鲲鹏开发者及 ISV 合作伙伴,帮助您快速了解 BoostKit 鲲鹏应用使能套件支持下的 8 大场景的最佳能力和实践、鲲鹏全研发作业流程工具套件 Kunpeng DevKit 和鲲鹏基础软件开源等相关内容,与全球开发者一起共同点亮多样性计算新时代。
在这里插入图片描述


我是白鹿,一个不懈奋斗的程序猿。望本文能对你有所裨益,欢迎大家的一键三连!若有其他问题、建议或者补充可以留言在文章下方,感谢大家的支持!

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

WEx-1712851475116)]
[外链图片转存中…(img-WlPU9DE0-1712851475117)]
[外链图片转存中…(img-zklNTkvt-1712851475117)]
[外链图片转存中…(img-72iqhDUI-1712851475117)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-T77QdVTF-1712851475117)]

  • 23
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值