Spark累加器使用

Spark累加器使用

使用spark累加器,解决视频平均播放数计算,以及视频播放数平方和平均值


val totalTimes=sc.accumulator(0l)
val totalVids=sc.accumulator(0)
val totalPow2Times=sc.accumulator(0d)
val timesFile=sc.textFile("/user/zhenyuan.yu/DumpIdTimesJob_tmp_out")

timesFile.foreach(f=>{
   val vid_times=f.split("\t")
   var times=vid_times(1).toInt

   if(times>10000000)times=10000000  
   if(times>500){
   val times_d=times.toDouble
   totalTimes+=times
   totalPow2Times+=Math.pow(times_d,2)
   totalVids+=1
   }
   }
)
val avgTimes=totalTimes.value/totalVids.value
val avgPow2Times=totalPow2Times.value/totalVids.value
println("totalTimes:"+totalTimes+",totalVids:"+totalVids+",totalPow2Times:"+totalPow2Times)
println("avgTimes:"+avgTimes+",avgPow2Times:"+avgPow2Times)



~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


计算视频播放数每个区间占用比例

 
val totalVids=sc.accumulator(0)
val timesFile=sc.textFile("/user/zhenyuan.yu/DumpIdTimesJob_tmp_out")
val keysList=List(100, 500, 1000, 2000, 5000, 10000, 20000, 40000, 80000, 100000, 200000, 300000, 500000, 1000000, 2000000, 5000000, 10000000)
val timesRDD=timesFile.map(f=>{
   val vid_times=f.split("\t")
   var times=vid_times(1).toInt
   times
   }).filter(_>50).map(times=>{      
      totalVids+=1
      var key=0
      var end=false
      var i=0
      var size=keysList.size
      while(i<size && !end){
         key=keysList(i)
         if(times<key){
           end=true
         }
         i+=1
      }  
      (key,1)
}).reduceByKey(_+_)

val rdd=timesRDD.collect()
println("totalVid:"+totalVids)
for(i<-0 to rdd.size-1){
  val times_times=rdd(i)
  val percent=times_times._2.toFloat/totalVids.value
  println("times:<"+times_times._1+",vid_num:"+times_times._2+",percent:"+percent)
}


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值