＜class ‘pyspark.sql.dataframe.DataFrame‘＞

最新推荐文章于 2024-09-07 00:00:00 发布

静听山水

最新推荐文章于 2024-09-07 00:00:00 发布

阅读量318

点赞数 2

分类专栏： Spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41081716/article/details/141950289

版权

Spark 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

在 PySpark 中，DataFrame 是一个分布式数据集，类似于 Pandas 中的 DataFrame。DataFrame 提供了许多内置的方法来帮助你处理数据。以下是一些常用的 DataFrame 方法及其简要说明：

1、数据查询和选择

select()：
- 选择 DataFrame 中的一个或多个列。
- 示例：df.select("column1", "column2")
selectExpr()：
- 使用 SQL 表达式选择列。
- 示例：df.selectExpr("column1 as new_column_name", "column2 + 1 as incremented_column")
where() 或 filter()：
- 根据条件过滤行。
- 示例：df.where(col("age") > 30) 或 df.filter(col("age") > 30)
groupBy()：
- 对 DataFrame 进行分组，并执行聚合操作。
- 示例：df.groupBy("city").agg(count("*").alias("count"), sum("age").alias("total_age"))
orderBy() 或 sort()：
- 对 DataFrame 的行进行排序。
- 示例：df.orderBy(col("age").desc())
distinct()：
- 返回去重后的 DataFrame。
- 示例：df.distinct()
dropDuplicates() 或 drop_duplicates()：
- 根据某些列去重。
- 示例：df.dropDuplicates(["column1"])
head()：
- 获取 DataFrame 的前几行。
- 示例：df.head(5)
show()：
- 显示 DataFrame 的内容。
- 示例：df.show()
collect()：
- 将 DataFrame 的内容收集到驱动程序内存中。
- 示例：df.collect()

2、数据转换

withColumn()：
- 添加或更新 DataFrame 中的列。
- 示例：df.withColumn("new_column", col("old_column") + 1)
withColumnRenamed()：
- 重命名 DataFrame 中的列。
- 示例：df.withColumnRenamed("old_column_name", "new_column_name")
drop()：
- 删除 DataFrame 中的列。
- 示例：df.drop("column_to_drop")
fillna() 或 na.fill()：
- 替换 DataFrame 中的空值。
- 示例：df.fillna(0) 或 df.na.fill(0)
replace()：
- 替换 DataFrame 中的值。
- 示例：df.replace("old_value", "new_value")

3、数据连接

join()：
- 连接两个 DataFrame。
- 示例：df1.join(df2, "common_column", "inner")
union()：
- 合并两个 DataFrame。
- 示例：df1.union(df2)
subtract()：
- 从一个 DataFrame 中减去另一个 DataFrame 的行。
- 示例：df1.subtract(df2)
intersect()：
- 获取两个 DataFrame 的交集。
- 示例：df1.intersect(df2)

4、数据读写

write：
- 将 DataFrame 写入文件或数据库。
- 示例：df.write.csv("path/to/directory")
read：
- 从文件或数据库读取数据并创建 DataFrame。
- 示例：spark.read.csv("path/to/directory")
saveAsTable()：
- 将 DataFrame 保存为 Hive 表。
- 示例：df.saveAsTable("my_table")
createOrReplaceTempView()：
- 将 DataFrame 注册为临时视图。
- 示例：df.createOrReplaceTempView("my_temp_view")
createOrReplaceGlobalTempView()：
- 将 DataFrame 注册为全局临时视图。
- 示例：df.createOrReplaceGlobalTempView("my_global_temp_view")

5、其他实用方法

cache()：
- 缓存 DataFrame 以加快后续操作的速度。
- 示例：df.cache()
persist()：
- 持久化 DataFrame 以提高性能。
- 示例：df.persist() 或 df.persist(StorageLevel.MEMORY_AND_DISK)
count()：
- 计算 DataFrame 中的行数。
- 示例：df.count()
describe()：
- 描述 DataFrame 中的统计信息。
- 示例：df.describe()
explain()：
- 显示 DataFrame 的逻辑和物理执行计划。
- 示例：df.explain()

这些方法可以帮助进行数据处理、清洗、转换和分析。

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
＜class ‘pyspark.sql.dataframe.DataFrame‘＞

在 PySpark 中，DataFrame是一个分布式数据集类似于Pandas 中的 DataFrame。DataFrame提供了许多内置的方法来帮助你处理数据。以下是一些常用的DataFrame。
复制链接

扫一扫

专栏目录

博客等级

码龄7年

535
原创

916
点赞

4150
收藏

1630
粉丝

关注

私信

分类专栏

最新评论

Spark on YARN
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Mac安装SecureCRT
alarmcat: 到24年8月底还能用，感谢楼主！
Mac安装SecureCRT
sanra123: 有效，感恩楼主！
FastAPI-Body、Field
gentalcat: <script>alert(/xss/)</script>
mysql数据迁移
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。