DataFrame算子

算子分类
      |__ RDD同源
      |    |__ 数据转换
      |    |             |__ map
      |    |             |__ mapPartitions
      |    |             |__ flatMap
      |    |             |__ filter
      |    |__ 数据聚合
      |    |             |__ groupByKey
      |    |             |__ reduce
      |    |__ 数据准备
      |    |             |__ union
      |    |             |__ sample
      |    |__ 数据预处理
      |    |             |__ coalesce
      |    |             |__ repartition
      |    |__ 结构收集
      |                  |__ first
      |                  |__ take
      |                  |__ collect
      |__ Schema同源
          |__ 探索类算子
          |              |__ 查看数据模式
          |              |                |__ columns
          |              |                |__ schema
          |              |                |__ printSchema
          |              |__ 查看数据"模样"
          |              |                |__ show
          |              |__ 查看数据分布
          |              |                |__ describe
          |              |__ 查看数据执行计划
          |                               |__ explain
          |__ 清洗类算子
          |              |__ 删除DataFrame中列数据
          |              |                |__ drop
          |              |__ 去重
          |              |                |__ distinct
          |              |__ 按照指定列去重
          |              |                |__ drop
          |              |__ null处理
          |                               |__ na
          |__ 转换类算子
          |              |__ 按照列名对数据做投影
          |              |                |__ select
          |              |__ 以SQL语句为参数生成、提取数据
          |              |                |__ selectExpr
          |              |__ 以SQL语句为参数做数据过滤
          |              |                |__ where
          |              |__ 字段重命名
          |              |                |__ withColumnRenamed
          |              |__ 生成新的数据列
          |              |                |__ withColumn
          |              |__ 展开数组类的数据列
          |                               |__ explode
          |__ 分析类算子
          |              |__ 两个DataFrame间做数据关联
          |              |                |__ join
          |              |__ 按照列分组
          |              |                |__ groupBy
          |              |__ 分组后做数据聚合
          |              |                |__ agg
          |              |__ 排序
          |                               |__ sort
          |                               |__ orederBy
          |__ 持久化类算子
                        |__ write

算子分类

1 RDD同源类算子

1.1 数据转换

map

 

mapPartitions


flatMap


filter


1.2 数据聚合

groupByKey

 

reduce

 

1.3 数据准备

union

 

sample

 

1.4 数据预处理

coalesce

 

repartition

 

1.5 结构收集

first

 

take

 

collect

 

2. Schema同源类算子

2.1 探索类算子

2.1.0 查看数据模式

columns

 

schema

 

printSchema

 
2.1.1 查看数据"模样"

show

 
2.1.2 查看数据分布

describe

 
2.1.3 查看数据执行计划

explain

 

2.2 清洗类算子

2.2.1 删除DataFrame中列数据

drop

 
2.2.2 去重

distinct

 
2.2.3 按照指定列去重

drop

 
2.2.4 null处理

na

 

2.3 转换类算子

2.3.0 按照列名对数据做投影

select

 
2.3.1 以SQL语句为参数生成、提取数据

selectExpr

 
2.3.2 以SQL语句为参数做数据过滤

where

 
2.3.3 字段重命名

withColumnRenamed

 
2.3.4 生成新的数据列

withColumn

 
2.3.5 展开数组类的数据列

explode

 

2.4 分析类算子

2.4.0 两个DataFrame间做数据关联

join

 
2.4.1 按照列分组

groupBy


2.4.2 分组后做数据聚合

agg

 
2.4.3 排序

sort

 

orederBy

 

2.5 持久化类算子

write

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值