Spark
源远流长
余镇源的技术博客:主要在搜索引擎,大数据,推荐,后端领域
展开
-
Spark学习笔记
spark学习笔记join跟union方法测试效果join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, (V, W))测试过如果 没有join到的key,就没有数据,也就是两个RDD没有共同的K,则没有相应的数据如:res15: Array[(Int, Int)] =原创 2014-10-27 14:00:52 · 3327 阅读 · 0 评论 -
Spark累加器使用
Spark累加器使用使用spark累加器,解决视频平均播放数计算,以及视频播放数平方和平均值val totalTimes=sc.accumulator(0l)val totalVids=sc.accumulator(0)val totalPow2Times=sc.accumulator(0d)val timesFile=sc.textFile("/user/zheny原创 2014-11-27 17:56:16 · 8645 阅读 · 0 评论