一文搞懂pandas中的去重

本文介绍如何在Pandas中进行数据去重操作。通过分析数据集A和B,找出B中不包含在A中的独特数据。核心是消除B与A共有的部分,即数据集C。参考提供的CSDN博客链接,可以找到详细解决方案。
摘要由CSDN通过智能技术生成

有两个数据集A和B,找出数据集B中不属于数据集A中的数据,如下图所示:

数据集A=A+B B=B+C C为A和B重复的数据 主要要过滤掉B中的C即可求解问题

#首先需要对A和B去重
A=pd.DataFrame(np.random.randint(0,9,5),columns=['a'])
B=pd.DataFrame(np.random.randint(0,9,5),columns=['a'])
A
   a
0  4
1  4
2  3
3  8
4  1
B
   a
0  8
1  8
2  6
3  6
4  8

#对A和B进行去重
A=A.drop_duplicates(subset=['a'],keep='first')
B=B.drop_duplicates(subset=['a'],keep='first')
A
   a
0  4
2  3
3  8
4  1
B
   a
0  8
2  6


#将两个DataFrame合并成一个 重新索引
df1=A.append(B,ignore_index=True)
df1
   a
0  4
1  3
2  8
3  1
4  8
5  6

#获取A和B中重复的数据C
C=df1[df1.duplicated(subset=['a'],keep='first')]
C
   a
4  8
#ABC表示A和B中的所有元素 都是唯一值 已经去除了重复的数据
ABC=df1[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值