1.RDD抽象的神奇的数据集,可以当成一个普通的数据集,调用他的方法,传入函数,大大简化开发
好处:不用关心任务怎样调度,不用关心任务是否失败。rdd相当于一个代理,你对代理法号命令,他会帮你具体生成任务进行计算。
val lines=sc.textFile("file:///bigdata/test1")
lines.flatMap(line=>line.split("")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect
2.spark简介
spark生态系统