Pandas常用操作

最新推荐文章于 2024-05-31 10:59:20 发布

堂堂一汪子

最新推荐文章于 2024-05-31 10:59:20 发布

阅读量291

点赞数

分类专栏：常见问题与解决 pandas 文章标签： pandas python

本文链接：https://blog.csdn.net/weixin_42774598/article/details/126348509

版权

常见问题与解决同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

pandas

1 篇文章 0 订阅

订阅专栏

使用Pandas的drop_duplicates去除重复项

返回DataFrame格式的数据

subset : 指定列，默认所有列

keep : {‘first’, ‘last’, False}，删除重复项并保留某项

first：保留第一次，删除后面的重复行
last：保留最后一次，删除重复行
False：删除所有重复项

inplace : boolean, 在原来数据上修改还是保留一个副本，默认False生成副本

读csv文件中某列去重后的内容：

df = pd.DataFrame({
    'name': ['Tom', 'Lily', 'Sam', 'Alex',],
    'favorite_color': ['red', 'yellow', 'blue', 'red',],
})
colors = np.array(df.drop_duplicates(subset={'favorite_color'}, keep='first', inplace=False)['favorite_color'])
print(colors) #['red' 'yellow' 'blue']
print(df)
#   name favorite_color
#0   Tom            red
#1  Lily         yellow
#2   Sam           blue
#3  Alex            red