python duplicated_pandas DataFrame 重复数据处理 – duplicated()和 drop_duplicates()

最新推荐文章于 2023-10-26 09:23:50 发布

weixin_39860757

最新推荐文章于 2023-10-26 09:23:50 发布

阅读量695

点赞数

文章标签： python duplicated

DataFrame.duplicated(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = ‘first’) → ‘Series’

subset: 列标签(表头)，可以是单个，也可以是列表

keep=’first’(默认)：标记/删除除第一个匹配项以外的重复项。

keep=“last”：标记/删除除最后一个匹配项以外的重复项。

keep=False：标记/删除所有重复项。

return : 返回一个断subset所在行是不是重复行的Boolean Series

DataFrame.drop_duplicates(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = ‘first’, inplace: bool = False, ignore_index: bool = False)

subset: 列标签(表头)，可以是单个，也可以是列表

keep=’first’(默认)：标记/删除除第一个匹配项以外的重复项。

keep=“last”：标记/删除除最后一个匹配项以外的重复项。

keep=False：标记/删除所有重复项。

inplace :是否更改源数据

ingore_index:是否忽略index

return 返回一个DataFrame

例子

>>> df2 = pd.DataFrame({'a': ['one', 'one', 'two', 'two', 'two', 'three', 'four'],

... 'b': ['x', 'y', 'x', 'y', 'x', 'x', 'x'],

... 'c': np.random.randn(7)})

>>> df2

a b c

0 one x 0.362045

1 one y -0.451623

2 two x 1.035298

3 two y -0.454305

4 two x -0.660347

5 three x 1.097390

6 four x 0.883549

>>> df2.duplicated('a')

0 False

1 True

2 False

3 True

4 True

5 False

6 False

dtype: bool

>>> df2.duplicated('a', keep='last')

0 True

1 False

2 True

3 True

4 False

5 False

6 False

dtype: bool

>>> df2.duplicated('a', keep=False)

0 True

1 True

2 True

3 True

4 True

5 False

6 False

dtype: bool

>>> df2.drop_duplicates('a')

a b c

0 one x 0.362045

2 two x 1.035298

5 three x 1.097390

6 four x 0.883549

>>> df2.drop_duplicates('a', keep='last')

a b c

1 one y -0.451623

4 two x -0.660347

5 three x 1.097390

6 four x 0.883549

>>> df2.drop_duplicates('a', keep=False)

a b c

5 three x 1.097390

6 four x 0.883549

weixin_39860757

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python duplicated_pandas DataFrame 重复数据处理 – duplicated()和 drop_duplicates()

DataFrame.duplicated(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = ‘first’)→ ‘Series’subset: 列标签(表头)，可以是单个，也可以是列表keep=’first’(默认)：标记/删除除第一个匹配项以外的重复项。kee...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。