Pandas常用操作

使用Pandas的drop_duplicates去除重复项

返回DataFrame格式的数据

subset : 指定列,默认所有列

keep : {‘first’, ‘last’, False},删除重复项并保留某项

  • first: 保留第一次,删除后面的重复行
  • last: 保留最后一次,删除重复行
  • False: 删除所有重复项

inplace : boolean, 在原来数据上修改还是保留一个副本,默认False生成副本

读csv文件中某列去重后的内容:

df = pd.DataFrame({
    'name': ['Tom', 'Lily', 'Sam', 'Alex',],
    'favorite_color': ['red', 'yellow', 'blue', 'red',],
})
colors = np.array(df.drop_duplicates(subset={'favorite_color'}, keep='first', inplace=False)['favorite_color'])
print(colors) #['red' 'yellow' 'blue']
print(df)
#   name favorite_color
#0   Tom            red
#1  Lily         yellow
#2   Sam           blue
#3  Alex            red

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值