Spark distinct中numTasks含义

Spark的distinct操作用于去除数据集中的重复项。官方文档中的参数numTasks(在Spark 2.3及以后版本变为numPartitions)并不直接影响分区数量,而是与数据的去重方式有关。通过测试发现,numTasks更像数学中的“因子”,当它能被数据集元素整除时,去重结果会按因子和非因子的组合排序,局部无序但整体有序。若不能整除,则按照原有RDD顺序返回结果。设置numTasks为10和5的实验表明,它实际上是将任务均匀分配,例如5个任务对应每个任务处理20个元素,形成局部无序但全局有序的去重结果。
摘要由CSDN通过智能技术生成

Spark中Transformation有个distinct([numTasks])算子

用于返回一个在源数据集去重之后的新数据集,即去重。

可一直没弄明白官方文档上提到的distinct方法中参数[numTasks]的具体含义,于是做了一下测试:

依次对numTasks值增大测试:

numTasks=1

numTasks=2

numTasks=3

numTasks=5</

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值