【Spark】Spark常用方法总结3-DataFrame常用方法（Python版本）

最新推荐文章于 2024-05-03 11:32:05 发布

「已注销」

最新推荐文章于 2024-05-03 11:32:05 发布

阅读量527

点赞数

分类专栏： Spark 文章标签：大数据 spark hadoop

本文链接：https://blog.csdn.net/refbit/article/details/104109126

版权

本文总结了Spark DataFrame在Python中的常用操作，包括创建、显示、创建虚拟表、过滤、连接和选择等关键方法。通过实例展示了如何使用这些方法进行数据处理，如`show()`、`createGlobalTempView()`、`filter()`/`where()`、`join()`及`distinct()`和`select()`。

摘要由CSDN通过智能技术生成

创建

df1 = spark.read.load(r'E:\常用基础数据\po.csv', 'csv')

schema = StructType(
    fields=list(map(lambda x: StructField(x, StringType(), True), [chr(ord('A') + x) for x in range(10)]

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Spark】Spark常用方法总结3-DataFrame常用方法（Python版本）

创建df1 = spark.read.load(r'E:\常用基础数据\po.csv', 'csv')schema = StructType( fields=list(map(lambda x: StructField(x, StringType(), True), [chr(ord('A') + x) for x in range(10)])))df1 = spark.read....
复制链接

扫一扫