背景
搜索引擎通常都会建立关键字的倒排索引,由关键字为index,后面跟着包含该关键字的网页,本次使用模拟数据,简要尝试一下,建立倒排索引的过程。
数据:
第一个元素为书名字,后面以空格分割,为书的关键字。
spark版本:
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.1.0</version>
</dependency>
正文
中间遇到一个问题,就是textfile读出的数据,没有reduceByKey方法,查看了一下,是因为textfile读出的数据是dataset不是rdd。所以下面的代码中转了一下rdd
object InvertedIndex {
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder().master("master")
.a