Spark的DataFrame算子

最新推荐文章于 2024-07-31 15:54:40 发布

莫非q

最新推荐文章于 2024-07-31 15:54:40 发布

阅读量851

点赞数

文章标签：大数据 spark

本文链接：https://blog.csdn.net/qq_45532779/article/details/110734466

版权

这篇博客详细介绍了Spark DataFrame的各种算子，包括unpersist、cache、persist、printSchema、schema、columns等，以及转换和聚合操作，如select、filter、groupBy、join、agg、withColumn等。此外，还提到了lit、max、sum、avg等统计函数，以及窗口函数row_number的使用。

摘要由CSDN通过智能技术生成

unpersist() :

返回dataframe.this.type 类型，去除模式中的数据

unpersist(blocking:Boolean)

返回dataframe.this.type类型 true 和unpersist是一样的作用false 是去除RDD

cache()

	同步数据的内存

persist(newlevel:StorageLevel)

返回一个dataframe.this.type 输入存储模型类型

printSchema()

 打印出字段名称和类型 按照树状结构来打印

schema

返回structType 类型，将字段名称和类型按照结构体类型返回

columns

返回一个string类型的数组，返回值是所有列的名字

toDF()

返回一个新的dataframe类型的

toDF(colnames：String*)

	将参数中的几个字段返回一个新的dataframe类型的

dtypes

返回一个string类型的二维数组，返回值是所有列的名字以及类型

explan()

打印执行计划  物理的

explain(n:Boolean)

输入值为 false 或者true ，返回值是unit  默认是false ，如果输入true 将会打印 逻辑的和物理的

最低0.47元/天解锁文章

莫非q

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark的DataFrame算子

unpersist() :返回dataframe.this.type 类型，去除模式中的数据unpersist(blocking:Boolean)返回dataframe.this.type类型 true 和unpersist是一样的作用false 是去除RDDcache() 同步数据的内存persist(newlevel:StorageLevel)返回一个dataframe.this.type 输入存储模型类型printSchema() 打印出字段名称和类型按照树状结构来打印
复制链接

扫一扫