Spark-例子们
以浪为码
发篇博客以表牛逼。
展开
-
Spark 例子: 寻找文件中前十的数 寻找个数为前十的单词
Spark 例子: 寻找文件中前十的数 寻找个数为前十的单词Henvealf/文寻找文件中前十的数样例数据:123234977456qwe213678其中 “qwe” 为错误数据。生成一个用于匹配数字的正则表达式:scala> val regex = """^\d+$""".rregex: scala.util.matching.Regex = ^\d+$然后使用 SortB原创 2016-11-29 11:40:36 · 1622 阅读 · 0 评论 -
Spark 计算 - 实现分组求 TopN
问题抽象:找出分组内数据的 TopN。问题实例找出每个城市(province)应用点击数(click)排前5的人(name)。这里假定省内每个人的点击数以及计算好了。思路思路: 这里的名字只是附属属性,求每个省份最高的5个点击数即可。首先按照省份分组,在组内聚合求 top 5参考 top() 算子的实现方法,使用一个有固定长度(这里即5)的优先队列,每个组内迭代将元素add进优先队列中,最...原创 2019-04-25 14:16:40 · 1244 阅读 · 0 评论