Spark优化(五):使用map-side预聚合的shuffle操作

11 篇文章 0 订阅

使用map-side预聚合的shuffle操作


如果因为业务需要,一定要使用shuffle操作,无法用map类的算子来替代,那么尽量使用可以map-side预聚合的算子。


所谓的map-side预聚合,说的是在每个节点本地对相同的key进行一次聚合操作,类似于MapReduce中的本地combiner。

 

map-side预聚合之后,每个节点本地就只会有一条相同的key,因为多条相同的key都被聚合起来了。其它节点在拉取所有节点上的相同key时,就会大大减少需要拉取的数据数量,从而也就减少了磁盘IO以及网络传输开销。

 

通常来说,在可能的情况下,建议使用reduceByKey或者aggregateByKey算子来替代掉groupByKey算子。因为reduceByKey和aggregateByKey算子都会使用用户自定义的函数对每个节点本地的相同key进行预聚合。而groupByKey算子是不会进行预聚合的,全量的数据会在集群的各个节点之间分发和传输,性能相对来说比较差。


比如以下两幅图就是典型的例子,分别基于reduceByKey和groupByKey进行单词计数。其中第一张图是groupByKey的原理图,可以看到,没有进行任何本地聚合时,所有数据都会在集群节点之间传输;第二张图是reduceByKey的原理图,可以看到,每个节点本地的相同key数据,都进行了预聚合,然后才传输到其他节点上进行全局聚合。

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
时序数据库的聚合查询函数优化技术研究主要是为了提高时序数据的查询性能和效率。以下是一些常见的优化技术: 1. 数据分区:将时序数据按照时间范围进行分区存储,可以提高查询效率。例如,可以按照小时、天或者月进行分区,使得查询只需要在特定的分区中进行,减少了扫描的数据量。 2. 索引优化:为时序数据建立合适的索引,可以加快查询速度。常见的索引包括时间索引和值索引。时间索引可以根据时间范围快速定位到对应的数据块,值索引可以根据数值范围快速定位到对应的数据。 3. 压缩算法:对时序数据进行压缩可以减少存储空间,并且在查询时可以减少IO操作,提高查询速度。常见的压缩算法包括差值压缩、字典压缩和位图压缩等。 4. 并行计算:利用多核处理器或者分布式计算框架进行并行计算,可以加速聚合查询的执行。通过将查询任务划分为多个子任务,并行处理这些子任务,可以提高查询的效率。 5. 缓存技术:使用缓存技术可以将频繁查询的结果缓存起来,下次查询时可以直接从缓存中获取结果,减少了查询的时间开销。 6. 数据聚合:对时序数据进行聚合可以减少查询的数据量,提高查询速度。例如,可以将分钟级别的数据聚合为小时级别或者天级别的数据,减少了查询的数据量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值