最常用drop_duplicates()函数,它把行相同的多余的重复的数据去除,直接在对象中使用该函数即可,它会返回去除重复值后的对象。
df = pd.DataFrame({'A': [1, 2, 1, 4, 5],
'B': [5, 6, 5, 8, 9],
'C': [1, 2, 1, 4, 5],
'D': [2, 6, 2, 0, 3],
'E': [8, 5, 8, 3, 2]})
找出行重复的位置
df_index = df.duplicated()
df_index
找出某一列的重复值的位置
df_index1 = df.duplicated(subset='C')
df_index1
df_index2 = df.duplicated(subset=['C', 'D'])
df_index2
把重复值所在行提取出来
df[df_index]
直接删除重复值所在行
newDF = df.drop_duplicates()
newDF
根据某一列删除重复值
newDF1 = df.drop_duplicates('C')
newDF1