1 artist_data.txt 文件中包含艺术家的ID 和名字,它们用制表符“\t”分割,但是尝试简单的把文件解析成二元组(Int, String) 会出错,用spark transformation 算子简单处理数据,过滤掉会产生异常的数据,返回元组(Int, String),并在结果RDD 中查找到ID 为2093760艺术家的名字。
原始数据的模样
关键代码
val conf = new SparkConf().setMaster("local[4]").setAppName("work01") //设置APP 的name,设置Local 模式的CPU资源
val sc = new SparkContext(conf)
val root = work01.getClass.getResource("/")
val rdd = sc.textFile(root + "artist_data.txt")
//rdd getClass返回class org.apache.spark.rdd.MapPartitionsRDD
// map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;而flatMap函数则是返回所有对象的集合,而且它摒弃了那些值