Spark性能优化第五季-数据本地性调优

最新推荐文章于 2022-02-24 00:06:01 发布

Alexkay

最新推荐文章于 2022-02-24 00:06:01 发布

阅读量4.5k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/NASAXK/article/details/50936513

版权

Spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一：性能优化之数据本地性
1、数据本地性对分布式系统的性能而言是一件最为重要的情况之一，程序运行本身饮食代码和数据两部分，单机版本一般情况下很少考虑数据本地性的问题（因为数据在本地），但是对于单机版本的程序，由于数据本性有PROCESS_LOCAL和NODE_LOCAL之分，所以，尽量让数据处于PROCESS_LOCAL级别。Spark作为分布式系统，更加注重数据本地性，在Spark中数据本地性分为PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY（数据可能在任何地方，包括在其它网络环境中，例如百度云，数据和计算集群不在同一集群中，此时就是ANY的一种表现）等；
2、对于ANY的情况，默认状态下性能会非常低，此时强烈建议使用Tachyon。例如在百度云上，为了确保计算速度，就在计算集群和存储集群之间加入Tachyon，通过Tachyon来从远程抓取数据，而Spark基于Tachyon来进行计算，这就更好的满足了数据本地性。
3、如果数据是PROCESS_LOCAL，但是此时并没有空闲的Core来运行Task，此时Task就要等待，例如等待3000ms，如果在该时间内获取core则直接运行，如果超过3000ms，此时数据本地性就退而采用NODE_LOCAL级别的数据。同样，NODE_LOCAL数据也会有等待超时时间，以此类推。。。
4、如何配置Locality
统一采用spark.locality.wait参数来设置（例如设置为5000ms），也可以分别设置spark.locality.wait.process、spark.locality.wait.node、spark.locality.wait.rack等。一般的具体设置是Locality优先级越高，则设置越长的等待超时时间。

二：RDD的自定义（以Spark on HBase为例）
第一步，定义RDD.getPartitions的实现
1)createRelation具体确定HBase的链接方式和具体访问的表；
2）通过HBase的API来获取Region的List；
3）过滤出有效的数据；
4）返回Region的Array[Partition]，也就是说一个Partition处理一个Region的数据，为更佳的数据本地性打下基础。
第二步，RDD.getPreferredLocations
1）根据split饮食的Region信息来确定Region具体在什么节点上，这样Task在调度时就可以优先被调度到Region所在的机器上，最大化的提高数据本地性；
第三步，RDD.compute(split: Partition, context: TaskContext)
1）根据split中的Region等信息调用HBase的API来进行操作（主要是查询）

Alexkay

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark性能优化第五季-数据本地性调优

一：Spark性能调优之序列化1、序列化最重要的原因是内存空间有限（减少GC的压力，最大化避免Full GC的产生，因为一旦产生Full GC，则整个Task处于停止状态！）、减少磁盘IO的压力、减少网络IO的压力；2、什么时候会必要的产生序列化和反序列化？发送磁盘IO和网络通信的时候会序列化和反序列化，更为重要的考虑序列化和反序列化的时候有另外两种情况：1）Persist（Checkpo
复制链接

扫一扫