python spark dataframe_pyspark dataframe 常用操作

最新推荐文章于 2024-10-06 00:51:11 发布

weixin_39612023

最新推荐文章于 2024-10-06 00:51:11 发布

阅读量546

点赞数

文章标签： python spark dataframe

本文介绍了Spark DataFrame的常用操作，包括数据合并（union、unionAll、unionByName）、样本抽样、条件过滤以及数据注册和写入HIVE。通过示例展示了如何使用filter、sample、registerTempTable及spark.sql进行数据处理，并提供了创建和保存DataFrame的方法，如从RDD、列表、字典或文件中读取数据。

摘要由CSDN通过智能技术生成

spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。

在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。

首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。

而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到HIVE中。

1、union、unionAll、unionByName，row 合并（上下拼接）

data_all = data_neg.unionByName(data_pos)

2、dataframe 样本抽样

data_all.sample(False, 0.5, 1000).count()

3、条件过滤

data_all.filter("label >= 1").count()

4、注册为临时表，再使用spark.sql 对dataframe进行操作

res = predictions.select("user_log_acct", split_udf('probability').alias('probability'))

res.registerTempTable("tmp")

spark.sql("insert overwrite table dev.dev_result_temp select user_log_acct,probability from tmp")

spark.stop()

创建和保存spark dataframe：

spark.createDataFrame(data, schema=None, samplingRat

最低0.47元/天解锁文章

weixin_39612023

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。