Spark SQL项目中的优化思路

最新推荐文章于 2023-07-31 14:37:08 发布

track sun

最新推荐文章于 2023-07-31 14:37:08 发布

阅读量145

点赞数

文章标签：大数据数据库

原文链接：http://www.cnblogs.com/kinghey-java-ljx/p/8544101.html

版权

存储格式的选择：

采取行式还是列式存储？

列存储写入时次数多，损耗时间多

反过来查询的时候较快

压缩格式的选择：

考虑压缩速度和压缩文件的分割性

压缩能够较少存储空间、提高数据传输速度

Spark中默认的压缩格式是“snappy”

代码的优化：

选择的高性能的算子：

foreachPartition => partitionOfRecords.foreach 获得每一条数据

分区的好处是把partition所有的数据先保存到list当中去，然后我们在插入MySQL的时候就可以结合pstmt的批处理，一次过把整个分区数据写进去

复用已有的数据：

在项目中，如果同时实现多个功能（本例中就是有三个），在计算时观察每个功能间是否有重叠产生的数据，若有的话把相应的数据提取出来生成，所有的功能实现都能共用（相当于做一个缓存，把中间数据cache ）

参数的优化：

并行度：spark.sql.shuffle.partitions

默认的是200，配置的是partitions的数量，对应了task的数量

若觉得运行得太慢，则需要吧这个值调大

在conf里面改（YARN启动时）

分区字段类型推测：spark.sql.sources.partitionColumnTypeInference.enabled

默认为开启，若开启之后系统就会自动推测分区字段的类型

关闭后能提升性能

转载于:https://www.cnblogs.com/kinghey-java-ljx/p/8544101.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL项目中的优化思路

存储格式的选择：采取行式还是列式存储？列存储写入时次数多，损耗时间多反过来查询的时候较快压缩格式的选择：考虑压缩速度和压缩文件的分割性压缩能够较少存储空间、提高数据传输速度Spark中默认的压缩格式是“snappy”代码的优化：选择的高性能的算子：foreachPartition => par...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。