Spark的DataFrame算子

这篇博客详细介绍了Spark DataFrame的各种算子,包括unpersist、cache、persist、printSchema、schema、columns等,以及转换和聚合操作,如select、filter、groupBy、join、agg、withColumn等。此外,还提到了lit、max、sum、avg等统计函数,以及窗口函数row_number的使用。
摘要由CSDN通过智能技术生成

unpersist() :

返回dataframe.this.type 类型,去除模式中的数据

unpersist(blocking:Boolean)

返回dataframe.this.type类型 true 和unpersist是一样的作用false 是去除RDD

cache()

	同步数据的内存

persist(newlevel:StorageLevel)

返回一个dataframe.this.type 输入存储模型类型

printSchema()

 打印出字段名称和类型 按照树状结构来打印

schema

返回structType 类型,将字段名称和类型按照结构体类型返回

columns

返回一个string类型的数组,返回值是所有列的名字

toDF()

返回一个新的dataframe类型的

toDF(colnames:String*)

	将参数中的几个字段返回一个新的dataframe类型的

dtypes

返回一个string类型的二维数组,返回值是所有列的名字以及类型

explan()

打印执行计划  物理的

explain(n:Boolean)

输入值为 false 或者true ,返回值是unit  默认是false ,如果输入true 将会打印 逻辑的和物理的
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值