SparkSQL性能优化

SparkSQL性能优化

1、设置shuffle过程中的并行度,可以通过spark.sql.shuffle.partitions设置shuffle并行度。(在SQLContext.setConf()中设置)。

2、Hive数据仓库创建的时候,合理设置数据类型,比如设置成Int的就不需要设置成BIGINT,减少数据类型的不必要开销。

3、SQL语句的优化,尽量给出明确的列,比如select name from table 不建议使用 select * from table.

4、并行的处理查询结果,对于SparkSQL查询的结果,如果数据量比较大,比如超过1000条,那么久不要使用collect到driver在处理,使用foreach算法并行处开立查询结果。

5、缓存表。 对于一条SQL语句中可能多次使用到的表,可以对其进行缓存,使用SQLContext.cacheTable(TableName)或者DataFrame.cache即可,SparkSQL会用内存列存储的格式进行表的缓存,然后SparkSQL就可以仅仅扫描需要使用的列,并且自动优化压缩,来最小化内存的使用和GC的开销,SQLContext.uncacheTable(tableName)可以将表从缓存中移除,使用SQLContext.setConf()设置,可以通过spark.sql.inMemoryColumnarStorage.batchSize这个参数,默认10000,配置列存储单位。

6、广播JOIN表,spark.sql.autoBroadcastJoinThreshold,默认10485760(10M),在内存够用的情况下,增大其大小,可以将join中的较小的表广播出去,而不用进行网络数据传输。

7、钨丝计划,spark.sql.tungsten.enabled。默认是true,自动管理内存。

8、最有效的方法为:并行的处理查询结果,缓存表,广播join表

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值