Spark RDD进行艺术家数据集清洗

最新推荐文章于 2022-10-26 14:46:08 发布

Nougats

最新推荐文章于 2022-10-26 14:46:08 发布

阅读量2k

点赞数 2

分类专栏： spark 文章标签： spark scala spark入门 scala入门

本文链接：https://blog.csdn.net/Nougats/article/details/73159613

版权

本文介绍如何使用Spark进行艺术家数据清洗。首先，处理artist_data.txt文件，通过Spark transformation解决ID与名字的分割问题，过滤异常数据并获取指定ID的艺术家名字。接着，处理artist_alias.txt文件，创建映射关系，修正拼写错误和非标准ID，并过滤掉无主ID的行。最后，从seeds.csv中筛选area字段大于15的记录，转换为RDD。

摘要由CSDN通过智能技术生成

1 artist_data.txt 文件中包含艺术家的ID 和名字，它们用制表符“\t”分割,但是尝试简单的把文件解析成二元组(Int, String) 会出错,用spark transformation 算子简单处理数据，过滤掉会产生异常的数据，返回元组(Int, String)，并在结果RDD 中查找到ID 为2093760艺术家的名字。

原始数据的模样

这里写图片描述

关键代码

val conf = new SparkConf().setMaster("local[4]").setAppName("work01") //设置APP 的name，设置Local 模式的CPU资源
    val sc = new SparkContext(conf)
    val root = work01.getClass.getResource("/")
    val rdd = sc.textFile(root + "artist_data.txt")
    //rdd getClass返回class org.apache.spark.rdd.MapPartitionsRDD
    //    map函数会对每一条输入进行指定的操作，然后为每一条输入返回一个对象；而flatMap函数则是返回所有对象的集合,而且它摒弃了那些值