spark - 小实践(5)倒排索引

本文通过模拟数据展示了如何使用Spark构建倒排索引,这个过程常用于搜索引擎的关键字检索。文章中提到了在操作textfile读出的数据时遇到的问题,即需要将dataset转换为rdd才能使用reduceByKey方法。
摘要由CSDN通过智能技术生成

背景

         搜索引擎通常都会建立关键字的倒排索引,由关键字为index,后面跟着包含该关键字的网页,本次使用模拟数据,简要尝试一下,建立倒排索引的过程。


数据:

第一个元素为书名字,后面以空格分割,为书的关键字。


spark版本:

<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>

正文

中间遇到一个问题,就是textfile读出的数据,没有reduceByKey方法,查看了一下,是因为textfile读出的数据是dataset不是rdd。所以下面的代码中转了一下rdd

object InvertedIndex {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("master")
      .a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值