python duplicated_pandas DataFrame 重复数据处理 – duplicated()和 drop_duplicates()

DataFrame.duplicated(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = ‘first’) → ‘Series’

subset: 列标签(表头),可以是单个,也可以是列表

keep=’first’(默认):标记/删除除第一个匹配项以外的重复项。

keep=“last”:标记/删除除最后一个匹配项以外的重复项。

keep=False:标记/删除所有重复项。

return : 返回一个断subset所在行是不是重复行的Boolean Series

DataFrame.drop_duplicates(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = ‘first’, inplace: bool = False, ignore_index: bool = False)

subset: 列标签(表头),可以是单个,也可以是列表

keep=’first’(默认):标记/删除除第一个匹配项以外的重复项。

keep=“last”:标记/删除除最后一个匹配项以外的重复项。

keep=False:标记/删除所有重复项。

inplace :是否更改源数据

ingore_index:是否忽略index

return 返回一个DataFrame

例子

>>> df2 = pd.DataFrame({'a': ['one', 'one', 'two', 'two', 'two', 'three', 'four'],

... 'b': ['x', 'y', 'x', 'y', 'x', 'x', 'x'],

... 'c': np.random.randn(7)})

>>> df2

a b c

0 one x 0.362045

1 one y -0.451623

2 two x 1.035298

3 two y -0.454305

4 two x -0.660347

5 three x 1.097390

6 four x 0.883549

>>> df2.duplicated('a')

0 False

1 True

2 False

3 True

4 True

5 False

6 False

dtype: bool

>>> df2.duplicated('a', keep='last')

0 True

1 False

2 True

3 True

4 False

5 False

6 False

dtype: bool

>>> df2.duplicated('a', keep=False)

0 True

1 True

2 True

3 True

4 True

5 False

6 False

dtype: bool

>>> df2.drop_duplicates('a')

a b c

0 one x 0.362045

2 two x 1.035298

5 three x 1.097390

6 four x 0.883549

>>> df2.drop_duplicates('a', keep='last')

a b c

1 one y -0.451623

4 two x -0.660347

5 three x 1.097390

6 four x 0.883549

>>> df2.drop_duplicates('a', keep=False)

a b c

5 three x 1.097390

6 four x 0.883549

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值