有两个数据集A和B,找出数据集B中不属于数据集A中的数据,如下图所示:
数据集A=A+B B=B+C C为A和B重复的数据 主要要过滤掉B中的C即可求解问题
#首先需要对A和B去重
A=pd.DataFrame(np.random.randint(0,9,5),columns=['a'])
B=pd.DataFrame(np.random.randint(0,9,5),columns=['a'])
A
a
0 4
1 4
2 3
3 8
4 1
B
a
0 8
1 8
2 6
3 6
4 8
#对A和B进行去重
A=A.drop_duplicates(subset=['a'],keep='first')
B=B.drop_duplicates(subset=['a'],keep='first')
A
a
0 4
2 3
3 8
4 1
B
a
0 8
2 6
#将两个DataFrame合并成一个 重新索引
df1=A.append(B,ignore_index=True)
df1
a
0 4
1 3
2 8
3 1
4 8
5 6
#获取A和B中重复的数据C
C=df1[df1.duplicated(subset=['a'],keep='first')]
C
a
4 8
#ABC表示A和B中的所有元素 都是唯一值 已经去除了重复的数据
ABC=df1[