DataFrame算子

155 篇文章 1 订阅
152 篇文章 0 订阅
本文详细介绍了DataFrame的各种算子,包括RDD同源类算子中的数据转换、聚合、准备和预处理;Schema同源类算子中的探索、清洗、转换、分析和持久化操作。内容涵盖map、filter、groupByKey、reduce、select、join、groupBy、agg等关键操作,是数据处理的重要参考资料。
摘要由CSDN通过智能技术生成

算子分类
|__ RDD同源
||__ 数据转换
|||__ map
|||__ mapPartitions
|||__ flatMap
|||__ filter
||__ 数据聚合
|||__ groupByKey
|||__ reduce
||__ 数据准备
|||__ union
|||__ sample
||__ 数据预处理
|||__ coalesce
|||__ repartition
||__ 结构收集
|||__ first
|||__ take
|||__ collect
|__ Schema同源
|__ 探索类算子
||__ 查看数据模式
|||__ columns
|||__ schema
|||__ printSchema
||__ 查看数据"模样"
|||__ show
||__ 查看数据分布
|||__ describe
||__ 查看数据执行计划
||__ explain
|__ 清洗类算子
||__ 删除DataFrame中列数据
||__ drop
||__ 去重
||__ distinct
||__ 按照指定列去重
||__ drop
||__ null处理
||__ na
|__ 转换类算子
||__ 按照列名对数据做投影
||__ select
||__ 以SQL语句为参数生成、提取数据
||__ selectExpr
||__ 以SQL语句为参数做数据过滤
||__ where
||__ 字段重命名
||__ withColumnRenamed
||__ 生成新的数据列
||__ withColumn
||__ 展开数组类的数据列
||__ explode
|__ 分析类算子
||__ 两个DataFrame间做数据关联
||__ join
||__ 按照列分组
||__ groupBy
||__ 分组后做数据聚合
||__ agg
||__ 排序
||__ sort
||__ orederBy
|__ 持久化类算子
|__ write

算子分类

RDD同源类算子

数据转换

map

mapPartitions

flatMap

filter

数据聚合

groupByKey

reduce

数据准备1.3

union

sample

数据预处理

coalesce

repartition

结构收集

first

take

collect

Schema同源类算子

探索类算子

查看数据模式

columns

schema

printSchema

查看数据"模样"

show

查看数据分布

describe

查看数据执行计划

explain

清洗类算子

删除DataFrame中列数据

drop

去重

distinct

按照指定列去重

drop

null处理

na

转换类算子

按照列名对数据做投影

select

以SQL语句为参数生成、提取数据

selectExpr

以SQL语句为参数做数据过滤

where

字段重命名

withColumnRenamed

生成新的数据列

withColumn

展开数组类的数据列

explode

分析类算子

两个DataFrame间做数据关联

join

按照列分组

groupBy

分组后做数据聚合

agg

排序

sort

orederBy

持久化类算子

write
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值