spark【例子】倒排索引(InvertedIndex)

最新推荐文章于 2024-04-21 11:36:22 发布

sysmedia

最新推荐文章于 2024-04-21 11:36:22 发布

阅读量3.2k

点赞数

分类专栏： SQL 文章标签： spark

SQL 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

例子描述：

【倒排索引(InvertedIndex)】

这个例子是在一本讲Spark书中看到的，但是样例代码写的太Java化，没有函数式编程风格，于是问了些高手，教我写了份函数式的倒排索引。
这段代码，我在刚开始学的时候很难想到二次拆分数据，所以这个难点挺不错的。

代码片段：

/* 倒排索引InvertedIndex */

val source = Source.fromFile("E:/cxsvn/txt/dp.txt").getLines.toArray
val cxRDD0 = sc.parallelize(source)                        /* spark单机读取数据 */

cxRDD0.flatMap {
  lines =>
    val line = lines.split("\\|", -1)                      /* 拆分数据，以竖杠为拆分条件 */
    line(1).split(",", -1).map {                           /* 再对拆分后的数据，进行第二次拆分 */
      v =>
        (v, line(0))                                       /* 拼接数据 */
    }
}.groupByKey()                                             /* 分组 */
.sortBy(_._1,true)                                         /* 排序 */
.foreach(x => println(s"${x._1}|${x._2.mkString(",")}"))   /* 格式化输出 */
   
   1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
   
   1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

顶

sysmedia

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
spark【例子】倒排索引(InvertedIndex)

例子描述：【倒排索引(InvertedIndex)】这个例子是在一本讲Spark书中看到的，但是样例代码写的太Java化，没有函数式编程风格，于是问了些高手，教我写了份函数式的倒排索引。这段代码，我在刚开始学的时候很难想到二次拆分数据，所以这个难点挺不错的。原始数据 cx1|a,b,c,d,e,f cx2|c,d,e,f cx3|a,b,c,f cx4
复制链接

扫一扫