spark复习笔记(1)

最新推荐文章于 2023-05-19 13:55:31 发布

aikunjiao3421

最新推荐文章于 2023-05-19 13:55:31 发布

阅读量115

点赞数

文章标签：大数据 scala

原文链接：http://www.cnblogs.com/bigdata-stone/p/9726207.html

版权

----------------------------------------------------

　　(1)用sc.textFile("　　")　　来实现文件的加载

val rdd1 = sc.testFile("home/centos/test.txt");//加载文本文件，以换行符的方式切割文本文件.Array(hello world1 ,.........),产生第一个弹性分布式数据集

　　(2)元素拿来之后对集合中的每个元素进行切割，按照空格进行切割

　　　　def map[U](f:String=>U)(implict evidence$3:scala.reflect.ClassTag[u]):org.apache.spark.rdd.RDD[U]

　　　　这个地方map是柯里化的，有两个参数，第二个是隐式的，函数f是是从String类型到U的映射，把一行按照空格来进行切割

　　　　把每一行进行切割，切开之后，每个元素都变成了一个数组，第一个元素是[hello world1]，第二个元素是[hello world2]，第三个元素是[hello world3]，第四个元素是[hello world4]，这个时候已经变成数组的集合了

　　　(3)val rdd2 = rdd1.flatMap(line=>line.split(" "));　　　　//压扁操作

　　　(4)val rdd3 = rdd2.map(word=>(word,1))　　　　//变换成对偶(k,v)

　　　(5)val rdd4=reduceByKey(_ + _)　　　　　　　//_是对每个元素的引用，按照key来聚合value

　　　(6)rdd4.collect　　　　　　　　　　　　　　//查看结果

　　　(7)一顿操作猛如虎

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).reduceByKey(_ + _).collect

　　　(8)单词过滤　

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).filter(_.contains("wor")).map((_,1)).reduceByKey(_ + _).collect

转载于:https://www.cnblogs.com/bigdata-stone/p/9726207.html

关注