刚开始学python,在数据分析中遇到的基础需求,做一个记录。
需求1:假设df1、df2两个数据集中分别有A、B列数据,需要判断A、B列的数据是否有差异,并显示差异的数据。
需求2:假设有某列数据,需要判断该列数据是否包含重复项,包含的重复项是什么,重复了多少次。
一、需求1解决
1. 生成数据集
import numpy as np
import pandas as pd
df1=pd.DataFrame(np.arange(20).reshape(10,2),columns=list('AN'))
df1.iloc[6,0]=4
df2=pd.DataFrame(np.arange(30).reshape(5,6),columns=list('ABCDEF'))
>>>df1
A N
0 0 1
1 2 3
2 4 5
3 6 7
4 8 9
5 10 11
6 4 13
7 14 15
8 16 17
9 18 19
>>>df2
A B C D E F
0 0 1 2 3 4 5
1 6 7 8 9 10 11
2 12 13 14 15 16 17
3 18 19 20 21 22 23
4 24 25 26 27 28 29
2. 提取需要匹配的列(假设df1中A列,df2中A列)
df1_A=df1.iloc[:,0] # 提取df1中的第1列,生成series d