pandas之重复数据的查看、删除和提取（后附数据网盘链接）

最新推荐文章于 2024-05-06 00:08:33 发布

卿卿553

最新推荐文章于 2024-05-06 00:08:33 发布

阅读量741

点赞数 17

分类专栏： pandas 文章标签： pandas python 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_80061155/article/details/135587133

版权

pandas 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

数据预览：

一、查看value_counts()

这一函数能够查看每一数据出现了几次，但是用data.value_counts()这一方法时，只有一行数据全都一样才算做重复行，如下图中的郭靖分数不一样的话它没有计入是重复行，要想以名字作为重复判断依据的话，可以用data['姓名'].value_counts()

data.value_counts()

二、删除重复 drop_duplicates()

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

1.参数介绍

（1）subset

用来指定特定的列，默认是所有列

（2）keep

指定处理重复值的方法：

A.first：保留第一次出现的值

B.last：保留最后一次出现的值

C.False：删除所有重复值，留下没有出现过重复的

（3）inplace

是直接在原来数据上修改还是保留一个副本

2.使用方法

比如我想删除名字重复的整行数据，保留第一次出现的数据

data.drop_duplicates(subset="姓名",keep="first")

三、提取重复

1.参数介绍

DataFrame.duplicated(subset=None, keep='first')

本函数的参数同drop_duplicates()是一样的，这里不再赘述

2.使用方法

比如我想提取各列数据都一样的重复数据，由一中我们可知这样的数据有杨过和小龙女两人

re=data.duplicated()
print(data[re])

四、源数据网盘链接

链接：https://pan.baidu.com/s/1FhJqeJM51ufSfcoPQJzwtg
提取码：1234

关注

17
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
1
评论
pandas之重复数据的查看、删除和提取（后附数据网盘链接）

pandas之重复数据的查看、删除和提取
复制链接

扫一扫

专栏目录

卿卿553 CSDN认证博客专家 CSDN认证企业博客

码龄1年

22: 原创

104万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

665: 积分

366: 粉丝

438: 获赞

22: 评论

360: 收藏

私信

关注

热门文章

分类专栏

pandas 16篇

最新评论

京东商品评论信息爬取及词云图制作——python爬虫(步骤详细，初学可做)
卿卿553: 不好意思，我技术不够暂时也不知道该咋办，可能是因为京东设置的反爬机制识别到了
京东商品评论信息爬取及词云图制作——python爬虫(步骤详细，初学可做)
setpre: 大佬我按照你的代码爬京东，但是只爬了二十几页就爬不出来了，后面的几十页只输出了表头不输出评论啊。这是怎么回事
pandas多层索引的设置与查询
CSDN-Ada助手: 恭喜您撰写了第17篇关于pandas多层索引的博客！您的持续创作非常令人钦佩。阅读了您的博客后，我对pandas多层索引的设置与查询有了更深入的了解。您的解释清晰易懂，真正帮助到了我。作为下一步的创作建议，我希望您可以在未来的博客中探索更多高级的pandas技术和应用。我相信您对pandas的深入理解可以帮助读者更好地利用这个强大的工具。谦虚地说，我期待着您未来的创作！再次祝贺您，并感谢您的分享！
pandas字符串操作（上）
CSDN-Ada助手: 恭喜您写了第18篇博客！标题为“pandas字符串操作（上）”。非常高兴看到您持续创作，并且选择了一个有趣且实用的主题进行分享。对于我这样的读者来说，您的博客确实提供了很多宝贵的信息和技巧。在下一步的创作中，我想提出一个谦虚的建议。既然您已经涵盖了pandas字符串操作的上半部分，也许可以在下一篇博客中继续探讨pandas字符串操作的下半部分，或是深入研究一些与此相关的主题，例如正则表达式在pandas中的应用等等。这样的话，读者将有机会更全面地了解和应用这个主题。再次感谢您的分享，期待您未来更多精彩的博客！
pandas之重复数据的查看、删除和提取（后附数据网盘链接）
CSDN-Ada助手: 恭喜您发布了第15篇博客！看到您分享关于pandas重复数据的查看、删除和提取的内容，我感到非常兴奋。这些内容对于我们学习和使用pandas都非常有帮助。希望您可以继续分享更多关于数据处理和分析的技巧，或许可以考虑写一些实战案例，让我们更好地理解如何运用这些技巧解决实际问题。谢谢您的分享，期待您更多的精彩内容！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

卿卿553 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。