使用Pandas的drop_duplicates去除重复项
返回DataFrame格式的数据
subset : 指定列,默认所有列
keep : {‘first’, ‘last’, False},删除重复项并保留某项
- first: 保留第一次,删除后面的重复行
- last: 保留最后一次,删除重复行
- False: 删除所有重复项
inplace : boolean, 在原来数据上修改还是保留一个副本,默认False生成副本
读csv文件中某列去重后的内容:
df = pd.DataFrame({
'name': ['Tom', 'Lily', 'Sam', 'Alex',],
'favorite_color': ['red', 'yellow', 'blue', 'red',],
})
colors = np.array(df.drop_duplicates(subset={'favorite_color'}, keep='first', inplace=False)['favorite_color'])
print(colors) #['red' 'yellow' 'blue']
print(df)
# name favorite_color
#0 Tom red
#1 Lily yellow
#2 Sam blue
#3 Alex red