![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
fanzitao
数据挖掘/Java/hadoop/python/shell
展开
-
使用计数器在mapper和reducer之间传递参数
假设要用MR来求一堆数据的平均数,MR求和自然是很简单原创 2014-09-19 19:31:36 · 2399 阅读 · 1 评论 -
Spark使用小结:Java版的GroupByKey示例
Spark Java版的GroupByKey示例感觉reduceByKey只能完成一些满足交换率,结合律的运算,如果想把某些数据聚合到一些做一些操作,得换groupbykey比如下面:我想把相同key对应的value收集到一起,完成一些运算(例如拼接字符串,或者去重)public class SparkSample { private static final Pattern原创 2016-04-22 20:44:47 · 7336 阅读 · 0 评论 -
Spark使用小结:Java版Join操作
实现两组数据的Join操作。第一组:i, i*i第二组:i, 'a'+ijoin之后的结果是:i, i*i, 'a'+ipublic class SparkSample { private static final Pattern SPACE = Pattern.compile(" "); public static void main(String ar原创 2016-04-22 16:32:48 · 5741 阅读 · 0 评论