Pandas 去掉重复项并统计个数

最新推荐文章于 2025-02-14 06:45:28 发布

cyx441984694

最新推荐文章于 2025-02-14 06:45:28 发布

阅读量1.4w

点赞数 1

分类专栏： python数据分析 pandas 文章标签： Pandas

本文链接：https://blog.csdn.net/cyx441984694/article/details/85057382

版权

本文探讨了在Pandas中如何处理重复数据，除了传统的drop_duplicates()方法外，还介绍了使用sorted进行去重，并结合value_counts()进行计数。通过示例展示了在爬虫数据中，如何处理顺序不同的但实质相同的行，如'America England'和'England America'视为同一国家的合作。最后，展示了将value_counts()结果转化为DataFrame并设置列名的技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

感觉还是另外开一篇文章写关于去重，这里说的并不是使用"drop_duplicates()"的用法哟。

这是因为drop_duplicates() 只会一刀杀，对于一些超过一个data的行，就没法做到保留其中一个的功能了。

复习如何运用 value_counts() 进行计数的请查看： https://mp.csdn.net/postedit/85029009

以下开始进入正题。

>>>country_counts
America 10
America England 1
England America 2
Canada America Hongkong 1
Korea 3

如同上图，我们可以看到“America England” 与 "England America" 只是顺序改变了。在爬虫豆瓣电影的过程中，其实这两个数据都是等同的，都是等于合作电影的国家名字。

当某些情况下，我们只需要统计他们的共同次数的时候，那怎么做呢？

最终的效果应该如同以下那样。

America 10
America England 3
Canada America Hongkong 1
Korea 3

那么就是运用sorted来去重了。

使用的方法如下：

data = [
        ['America',10],
        ['America England', 1],
        ['England America', 2],
        ['Can

最低0.47元/天解锁文章