Spark中Transformation有个distinct([numTasks])算子
用于返回一个在源数据集去重之后的新数据集,即去重。
可一直没弄明白官方文档上提到的distinct方法中参数[numTasks]的具体含义,于是做了一下测试:
依次对numTasks值增大测试:
numTasks=1
numTasks=2
Spark中Transformation有个distinct([numTasks])算子
用于返回一个在源数据集去重之后的新数据集,即去重。
可一直没弄明白官方文档上提到的distinct方法中参数[numTasks]的具体含义,于是做了一下测试:
依次对numTasks值增大测试:
numTasks=1
numTasks=2