pyspark DataFrame问题解决

天天~

已于 2022-10-24 15:11:46 修改

阅读量1k

点赞数

分类专栏： Spark 文章标签： spark big data 数据挖掘 1024程序员节

于 2022-05-27 17:37:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42784951/article/details/124999776

版权

参考文档

1、https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.html

1、去除重复列

pyspark.sql.DataFrame.dropDuplicates(subset=None)

作用：返回删除重复行的新 DataFrame，可选择仅考虑某些列。

Examples

from pyspark.sql import Row
df = sc.parallelize([ \
Row(name='Alice', age=5, height=80), \
Row(name='Alice', age=5, height=80), \
Row(name='Alice', age=10, height=80)]).toDF()
df.dropDuplicates().show()

name	age	height
Alice	5	80
Alice	10	80

df.dropDuplicates(['name', 'height']).show()

name	age	height
Alice

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pyspark DataFrame问题解决

参考文档1、https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.html1、去除重复列pyspark.sql.DataFrame.dropDuplicates(subset=None)作用：返回删除重复行的新 DataFrame，可选择仅考虑某些列。Examplesfrom pyspark.sql import Rowdf = sc.parallelize([ \Row(name='Alice
复制链接

扫一扫

专栏目录

天天~ CSDN认证博客专家 CSDN认证企业博客

码龄6年

20: 原创

30万+: 周排名

155万+: 总排名

18万+: 访问

: 等级

1292: 积分

71: 粉丝

195: 获赞

55: 评论

722: 收藏

私信

关注

热门文章

分类专栏

Spark 2篇
大数据开发 1篇
数据仓库 1篇
JAVA工程 1篇
算法 4篇
图像处理 6篇

最新评论

传统图像去模糊
yuzhouchangwan88: 你好啊，请问你现在知道这篇文章题目是什么吗
DeblurGAN-v2: Deblurring (Orders-of-Magnitude) Faster and Better阅读笔记
Bill H: raise ValueError( ValueError: win_size exceeds image extent. Either ensure that your images are at least 7x7; or pass win_size explicitly in the function call, with an odd value less than or equal to the smaller side of your images. If your images are multichannel (with color channels), set channel_axis to the axis number corresponding to the channels. Process finished with exit code 1 博主，我出现了这个问题
单调栈详解
天天~: 这个是索引从0 开始还是从1 开始的问题，看个人习惯
单调栈详解
timegrass: 有一个小疑问：文中“我们遍历到第五个柱子的时候， x=1, y=6 则 S[4] = 8”这里，S[i]应该是表示第i根柱子的最大面积吧，那是否应该是S[5]=8呢？？
单调栈详解
timegrass: 有一个小疑问：文中“我们遍历到第五个柱子的时候， x=1, y=6 则 S[4] = 8”这里，S[i]应该是表示第i根柱子的最大面积吧，那是否应该是S[5]=8呢？？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。