跟我一起学【Spark】之——Spark调优与调试

最新推荐文章于 2022-05-26 14:16:38 发布

置顶 SunWuKong_Hadoop

最新推荐文章于 2022-05-26 14:16:38 发布

阅读量393

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/SunWuKong_Hadoop/article/details/90482679

版权

spark 专栏收录该内容

30 篇文章 1 订阅

订阅专栏

第8章 Spark调优与调试

1.总结Spark的配置机制

2.理解Spark应用性能表现的基础知识、设置相关配置项、编写高性能应用设计模式

3.探讨Spark的用户界面、执行的组成部分、日志机制

8.1使用SparkConf配置Spark

1.SparkConf实例包含用户要重载的配置选项的键值对。

Spark中的每个配置选项都是基于字符串形式的键值对。

调用set()方法来添加配置项的设置。

#创建一个conf对象
conf = new SparkConf()
conf.set("spark.app.name","My Spark App")
conf.set("spark.master","local[4]")
conf.set("spark.ui.port","36000")#重载默认端口配置
#使用这个配置对象创建一个SparkContext
sc = SparkContext(conf)

2.动态地为给定应用设置配置选项

通过spark-submit工具动态设置，当应用被spark-submit脚本启动时，脚本会把这些配置项设置到运行环境中。

当一个新的SparkConf被创建出来时，这些环境变量会被检测出来并自动配置好。

于是乎~在使用spark-submit时，用户应用中只要创建一个“空”的SparkConf，并直接传给SparkContext的构造方法就OK了。

bin/spark-submit 
--class com.example.MyApp 
--master local[4] 
--name "My Spark App" 
--conf spark.ui.port=36000 
myapp.jar

spark-submit同样支持从文件中读取配置项的值。默认情况下，spark-submit脚本会在Spark安装目录中找到conf/spark-default.conf文件，尝试读取该文件中以空格隔开的键值对数据。

同样！使用spark-submit的 --properties-File标记，自定义该文件的路径

优先级：

最高：用户代码中显式调用set（）方法设置的选项。

其次：通过 spark-submit 传递的参数

再次：写在配置文件中的值，

最后：系统的默认值

ps：在应用的网页用户界面查看实际生效的配置。

8.2Spark执行的组成部分：作业、任务和步骤

8.3查找信息

8.3.1Spark网页用户界面

如果是在TARN集群模式来说，需要通过Yarn的资源管理器来访问用户界面。Yarn的资源管理器会把请求直接转发给驱动器程序

1.作业页面：步骤与任务的进度和指标

包含正在进行或刚完成不久的Spark作业的详细执行情况。

着眼于组成作业的所有步骤，看看是不是有一些步骤特别慢，或是在多次运行同一个作业时响应时间差距很大。

如果有，就点击进去来更好的理解该步骤对应的是哪段用户代码。再借助下图所示的步骤来定位性能问题

在Spark这样的并行数据系统中，数据倾斜是导致性能问题的常见原因之一。

当看到少量的任务相对于其他任务需要花费大量时间的时候，一般就是发生了数据倾斜。

从任务的运行时间开始看，发现时长较大的，

是不是读取或者输出了比别的任务多得多的数据？

是不是运行在某些特定节点上的任务特别慢？

本页面还可以用来查看任务在其生命周期的各个阶段（读取、计算、输出）分别花费了多久。

有些任务肯能把时间基本都花在从外部存储系统中读取数据这部分，这样为Spark作额外的优化对于提高性能就没有多大用处了，毕竟这些任务的瓶颈在于输入数据的读取。

2.存储页面：已缓存的RDD的信息

当有人在一个RDD上调用了persist()方法，并且在某个作业中计算了该RDD时，这个RDD就会被缓存下来。

RDD会有新老替换机制（从内存中移除）。

这个页面可以告诉我们到底各个RDD的哪些部分被缓存了，以及在各种不同的存储媒介中所缓存的数据量。

3.执行器页面：应用中的执行器进程列表

查询异常的执行器节点，例如某个节点有很高的失败率，查看他是否是因为主机的配置问题。

执行器页面的另一个功能是使用线程转存（Thread Dump）按钮收集执行器进程的栈跟踪信息。这种信息分析可以检测出低效的用户代码。

4.环境页面：用来调试Spark配置项

枚举Spark应用所运行的环境中实际生效的配置项集合。

当你检查哪些配置标记生效时，这个界面很有用，尤其当使用了多种配置机制时。

此页面同样会列出你添加到应用路径中的所有Jar包和文件，在追踪类似依赖缺失的问题时可以用到。

8.3.2驱动器进程和执行器进程的日志

查看内部警告以及用户代码输出的详细异常信息，需要深入研读驱动器进程和执行器进程所产生的日志。

Spark日志文件的位置取决于部署模式：

Spark独立模式，所有日志会在独立模式主节点的网页用户界面中直接显示。

Mesos模式下，日志存储在Mesos从节点的work/目录中，可以通过mesos主节点用户界面的访问。

Yarn模式下，最简单的收集日志的方法是使用YARN的日志收集工具（运行Yarn logs -applicationId <app ID> 来生成一个包含应用日志的报告。这种方法只有在应用已经完全完成之后才能使用，因为YARN必须先把这些日志聚合到一起。）

要查看当前运行在YARN上的应用日志，可以从资源管理器的用户界面点击进入节点(Node)页面。

日志位置在conf/log4j.properties.template。要想自定义Spark日志，首先需要把示例文件赋值为log4j.properties，然后修改日志行为。例如修改日志等级，默认为INFO

8.4关键性能考量

8.4.1并行度

Spark会针对RDD直接自动推断出合适的并行度。

当并行度过低时，Spark集群会出现资源闲置的情况。

当并行度过高时，每个分区产生的间接开销累计起来就会更大。

评判并行度是否过高的标准：任务是否是几乎在瞬间（毫秒级）完成的；观察到任务没有读写任何数据。

Spark提供的两种并行度调优方法：

数据混洗时，使用参数为混洗后的RDD指定并行度；
对任何已有的RDD，进行重新分区来获取更多或更少的分区数。

8.4.2序列化格式

Spark支持第三方序列化库Kryo，但是不能直接序列化全部类型的对象。

使用Kryo，需要设置spark.serializer 为 org.apache.spark.serializer.KryoSerializer.

为了获得最佳性能，还应该向Kryo注册想要序列化的类。注册类可以让Kryo避免把每个对象的完整的类名写下来。

如果想强制要求这种注册，可以把spark.kryo.registrationRequired设置为true，这样Kryo会在遇到未注册的类时抛出错误。

如果代码中引用了一个没有扩展的Java的Serializable接口的类，会遇到NotSerializableException。

8.4.3内存管理

内存的用途：RDD存储、数据混洗与聚合的缓存区、用户代码

默认情况下，Spark会使用60%的空间来存储RDD，20%存储数据混洗操作产生的数据，20%留给用户程序。

memory_only()的存储等级，如果缓存新的RDD分区时空间不够，旧的分区就会直接被删除，当用到这些分区数据时，再重算

memory_and_disk的存储等级调用persist()方法，内存中放不下的旧分区会被写入磁盘，当再次需要用到的时候再从磁盘上读取回来。（适用场景：当RDD分区的重算代价很大（比如从数据库中读取数据时））

memory_only_ser或者memory_and_disk_ser实现缓存序列化后的对象而非直接缓存。，可以显著减少JVM的垃圾回收时间。

8.4.4硬件供给

影响集群规模的主要参数：

分配给每个执行器节点的内存大小
每个执行器节点占用的核心数
执行器节点总数
存储临时数据的本地磁盘数量

出处：《Spark快速大数据分析》作者：Holden Karau

SunWuKong_Hadoop

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录