定义与使用数组:
定义与使用列表:
定义与使用集合:
使用函数组合器:
从内存中读取数据创建RDD:
使用map()方法转换数据:
使用sortBy()方法进行排序:
使用collect()方法查询数据:
使用flatMap()方法转换数据:
使用take()方法查询某几个值
使用union()方法合并多个RDD:
使用filter()方法进行过滤:
使用distinct()方法进行去重:
使用简单的集合操作:
使用键值对RDD的keys和values方法:
使用键值对RDD的reduceByKey()方法:
使用键值对RDD的groupByKey()方法:
使用join()方法连接两个RDD:
使用zip()方法组合两个RDD:
使用combineByKey()方法合并相同键的值:
使用lookup()方法查找指定键的值:
DataFrame的创建:
1.数据准备:
2.通过文件直接创建DataFrame:
3.RDD直接转换为DataFrame:
DataFrame的常用操作:
DSL风格操作DataFrame:
SQL风格操作DataFrame:
Filter 方法查询:
sort方法对age(年龄)字段进行排序:
groupBy方法对age(年龄)字段进行排序: