一千万条数据去重_Pandas数据去重和对重复数据分类、求和

最新推荐文章于 2024-02-19 20:38:11 发布

24k钱多多

最新推荐文章于 2024-02-19 20:38:11 发布

阅读量517

点赞数

文章标签：一千万条数据去重

本文链接：https://blog.csdn.net/weixin_28785657/article/details/111901483

版权

本文介绍了如何使用Pandas处理一千万条数据的去重问题，详细讲解了如何填充空值、利用duplicated()和drop_duplicates()函数对数据去重，并按特定列对重复数据进行分类和求和。此外，还展示了如何合并不重复数据和处理后的重复数据。

摘要由CSDN通过智能技术生成

人的理想志向往往和他的能力成正比。—— 约翰逊

其实整个需求呢，就是题目。2018-08-16

需求的结构图：

涉及的包有：pandas、numpy

1、导入包：

importpandas as pdimport numpy as np

View Code

2、构造DataFrame，里面包含三种数据类型：int、null、str

data = {"number":[1,1,np.nan,np.nan,2,2,1,2,2],"letter":['a','b',np.nan,np.nan,'c','d','b','c','d'],"label":[1,1,9,9,2,2,1,2,2]}

dataset1= pd.DataFrame(data) #初始化DataFrame 得到数据集dataset1

print(dataset1)

View Code

3、空值填充

由于数据集里含有空值

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注