import pandas as pd
4.11.2 检测与处理重复值
1.数据重复
数据重复,即一个或者多个特征某几个记录的值完全相同
- 要清洗重复数据,可以使用 duplicated()和 drop_duplicates()方法
- 若对应的数据是重复的,duplicated() 会返回 True,否则返回 False
- 删除重复数据,可以直接使用drop_duplicates()方法
- pandas提供了一个名为drop_duplicates的去重方法。该方法不仅支持单一特征的数据去重,还能够依据DataFrame的其中一个或者几个特征进行去重操作。
pandas.DataFrame(Series).drop_duplicates(self, subset=None, keep='first', inplace=False)
In [2]:
df1 = pd.DataFrame({'类型':['A','B','A','B','A'],'数目':[30,15,30,15,18]}) df1
Out[2]:
类型 | 数目 | |
---|---|---|
0 | A | 30 |
1 | B | 15 |
2 | A | 30 |
3 | B | 15 |
4 | A | 18 |
In [3]:
df1.duplicated()
Out[3]:
0 False 1 False 2 True 3 True 4 False dtype: bool
In [4]:
df1.drop_duplicates()
Out[4]:
类型 | 数目 | |
---|---|---|
0 | A | 30 |
1 | B | 15 |
4 | A | 18 |
In [5]:
df1.drop_duplicates().reset_index(drop=True)
Out[5]:
类型 | 数目 | |
---|---|---|
0 |