Spark开发代码优化点

案例1:

大量终端号码去重统计

采用方式

val arr = Array((1,Set(1,2)),(2,Set(2,3)),(2,Set(3,4)))
    sc.parallelize(arr)
      .reduceByKey(_++_)
      .foreach(println(_))

将终端号放入set中,然后分段去重统计

测试:对比全局变量   sc.collectionAccumulator[String]

效率较低,优点,在拉取数据时可以节省空间,另外有多个key值时,可以灵活应用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值