算子分类
|__ RDD同源
||__ 数据转换
|||__ map
|||__ mapPartitions
|||__ flatMap
|||__ filter
||__ 数据聚合
|||__ groupByKey
|||__ reduce
||__ 数据准备
|||__ union
|||__ sample
||__ 数据预处理
|||__ coalesce
|||__ repartition
||__ 结构收集
|||__ first
|||__ take
|||__ collect
|__ Schema同源
|__ 探索类算子
||__ 查看数据模式
|||__ columns
|||__ schema
|||__ printSchema
||__ 查看数据"模样"
|||__ show
||__ 查看数据分布
|||__ describe
||__ 查看数据执行计划
||__ explain
|__ 清洗类算子
||__ 删除DataFrame中列数据
||__ drop
||__ 去重
||__ distinct
||__ 按照指定列去重
||__ drop
||__ null处理
||__ na
|__ 转换类算子
||__ 按照列名对数据做投影
||__ select
||__ 以SQL语句为参数生成、提取数据
||__ selectExpr
||__ 以SQL语句为参数做数据过滤
||__ where
||__ 字段重命名
||__ withColumnRenamed
||__ 生成新的数据列
||__ withColumn
||__ 展开数组类的数据列
||__ explode
|__ 分析类算子
||__ 两个DataFrame间做数据关联
||__ join
||__ 按照列分组
||__ groupBy
||__ 分组后做数据聚合
||__ agg
||__ 排序
||__ sort
||__ orederBy
|__ 持久化类算子
|__ write
算子分类
RDD同源类算子
数据转换
map
mapPartitions
flatMap
filter
数据聚合
groupByKey
reduce
数据准备1.3
union
sample
数据预处理
coalesce
repartition
结构收集
first
take
collect
Schema同源类算子
探索类算子
查看数据模式
columns
schema
printSchema
查看数据"模样"
show
查看数据分布
describe
查看数据执行计划
explain
清洗类算子
删除DataFrame中列数据
drop
去重
distinct
按照指定列去重
drop
null处理
na
转换类算子
按照列名对数据做投影
select
以SQL语句为参数生成、提取数据
selectExpr
以SQL语句为参数做数据过滤
where
字段重命名
withColumnRenamed
生成新的数据列
withColumn
展开数组类的数据列
explode
分析类算子
两个DataFrame间做数据关联
join
按照列分组
groupBy
分组后做数据聚合
agg
排序
sort
orederBy