https://blog.csdn.net/coding_hello/category_5839687.html
https://zhuanlan.zhihu.com/p/37518037
- Dataset操作
Dataset操作都是在操作列,官方Spark API文档介绍的比较详细。
// Dataset usnchr = spark.read().load(paths); - JavaRDD操作
第一步就是创建一个初始的RDD。该RDD通常就代表和包含了Spark应用程序的输入源数据.
Spark Core提供了三种创建RDD的方式:
a. 使用程序中的集合创建RDD(主要用于测试)
b. 使用本地文件创建RDD(主要用于临时性处理有大量数据的文件)
c. 使用HDFS文件创建RDD(生产环境的常用方式)