【Python专题】去重和选择唯一值的函数drop_duplicates、unique

最新推荐文章于 2024-08-27 19:28:07 发布

随笔备忘录

最新推荐文章于 2024-08-27 19:28:07 发布

阅读量1k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_42199542/article/details/107736193

版权

Python 专栏收录该内容

39 篇文章 7 订阅

订阅专栏

声明：不定期更新添加新的方法。

去重有很多种方法，这里只是列举博主用过的几种。

一、函数.drop_duplicates

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

这个函数是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据。[1]

参数	意义
subset	用来指定特定的列，默认所有列。认值为subset=None表示考虑所有列。
keep	可用值为 {‘first’, ‘last’, False}，默认为first，即删除重复项并保留第一次出现的项。keep另外两个取值为"last"和False，分别表示保留最后一次出现的重复行和去除所有重复行。
inplace	是直接在原来数据上修改还是保留一个副本。inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本。

二、函数.duplicated同一中函数

DataFrame.duplicated(subset=None, keep='first')

三、函数.unique

四、函数set()

转换为集合后输出

五、

【参考文献】

1.Pandas之drop_duplicates：去除重复项

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

随笔备忘录

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python DataFrame使用drop_duplicates()函数去重(保留重复值，取重复值)

09-16

通过设置`keep`参数和`subset`参数，我们可以根据实际需求选择保留重复值或去除重复值，以及指定基于哪些列进行去重。熟练掌握这些用法，将有助于我们在数据清洗和预处理阶段提高效率，为后续的数据分析奠定坚实基础...

python数据分析-drop_duplicates函数和unique函数介绍及注意

qq_40395868的博客

05-13

3699

浏览前任留下的代码，发现第一条用了drop_duplicates函数，紧接着用了unique函数，所以记录一下两个函数的用法。一、pandas.DataFrame.drop_duplicates DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数: subset：列标签，可选 keep： {‘first’, ‘last’, False}, 默认值 ‘first’ first：保留第一次出现的重复项。 last

参与评论您还未登录，请先登录后发表或查看评论

Pandas入门篇（二）-------Dataframe篇2（Dataframe数据的处理！巨详细易懂，适合新手！）（机器学习前置技术栈）

2301_77539454的博客

04-24

1995

Dataframe在进行数据清洗和预处理时，我们需要遵循一定的步骤和原则。首先，我们需要对数据进行整体的了解和探索，包括数据的来源、结构、分布以及存在的问题等。然后，我们可以根据问题的具体情况选择合适的方法进行清洗和处理。例如，对于缺失值，我们可以选择填充、删除或插值等方法；对于重复值，我们可以选择删除或合并等方法。同时，我们还需要注意保留数据的原始信息和特征，避免在清洗过程中引入新的误差或偏差。本篇详细的介绍了Dataframe进行数据清洗和预处理的api和原则。

python列表去重，一行实现太优雅~

weixin_53707653的博客

08-27

1400

如果你既想保留原始顺序，又想要高效的方法，collections.Counter 是个不错的选择。Python 3.7+ 中，字典是有序的（Python 3.6 中的 CPython 实现也是有序的）。⚠️ 缺点：效率较低，尤其是列表很大的时候，性能就不太理想了。💡 小贴士：其实在大多数情况下，顺序不重要时，这个方法是非常实用的。💡 小贴士：这个方法的代码非常简洁，而且性能也很不错，特别是在 Python 3.7+ 的环境下。💡 小贴士：这是个很优雅的方法，既考虑了效率又保留了顺序，推荐使用。

unique去重函数，lower_bound，upper_bound二分查找函数，sort函数，全排列

qq_42817826的博客

10-19

269

unique去重函数作用是去除相邻的重复元素，只保留一个,它每次把重复的元素依次往后放，并没有真正的删除。去重之后的数组长度为unique((a,a+n)-a); lower_bound lower_bound(start,end,value),在区间[start,end)中的非递减序列进行二分查找，返回大于等于value的第一个元素的位置，如果所有元素都小于value，则返回e...

从Excel到Python：最常用的36个Pandas函数

python爬虫人工智能大数据

12-04

723

本文为粉丝投稿的《从Excel到Python》读书笔记本文涉及pandas最常用的36个函数，通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理，以及最常见的数据分类，数据筛选，分...

pandas 去重函数 drop_duplicates() 和选取重复行函数 duplicated()

weixin_41300650的博客

10-20

6590

1drop_duplicates() 返回删除重复行后的DataFrame，可以仅选择某些列。索引、时间型索引都是被忽略。 pandas.DataFrame.drop_duplicates 官方文档方法： DataFrame.drop_duplicates(self, subset=None, keep='first', inplace=False) 参数： subs...

python查看列的唯一值方法

09-20

unique_names = data['name'].drop_duplicates().unique() ``` 在这里，`data['name']`选取了`'name'`列，`drop_duplicates()`去除了重复的`'name'`值，最后`unique()`返回了这些唯一值的列表。除了上述方法，还...

Python代码源码-实操案例-框架案例-如何实现字符串与列表等数据的去重.zip

02-22

在Python编程语言中，数据去重是一个常见的操作，尤其在处理字符串、列表和其他集合类型的数据时。本案例将深入探讨如何有效地实现这一功能。我们主要关注两种数据结构：字符串和列表，以及可能涉及的框架应用。 1....

duplicated.zip

04-20

unique_df = df.drop_duplicates(subset='column_name', keep='first') ``` 这里的`subset`参数指定了我们关注的列，`keep`参数则决定了保留重复项中的哪一行。默认情况下，`keep='first'`表示保留第一次出现的行...

从Excel到Python数据分析进阶指南1

08-04

`df.isnull()`用于检测空值，返回一个布尔型的DataFrame，`df['city'].unique()`则可以查看某一列的唯一值。数据清洗是数据分析中的核心步骤。`df.dropna(how='any')`可以删除包含任何空值的行，`df.fillna(value=...

drop_duplicates去重详解

dzysunshine的博客

08-22

10万+

根据数据的不同情况及处理数据的不同需求，通常会分为两种情况，一种是去除完全重复的行数据，另一种是去除某几列重复的行数据，就这两种情况可用下面的代码进行处理。 1. 去除完全重复的行数据 data.drop_duplicates(inplace=True) 2. 去除某几列重复的行数据 data.drop_duplicates(subset=['A','B'],keep='first',inpla...

我用Python展示Excel中常用的20个操作

大邓和他的Python

06-29

1037

前言 Excel与Python都是数据分析中常用的工具，本文将使用动态图(Excel)+代码(Python)的方式来演示这两种工具是如何实现数据的读取、生成、计算、修改、统计、抽样、查找...

Pandas之drop_duplicates：去除重复项

热门推荐

分享人工智能学习心得与实践经验，探讨应用场景，见证变革与进步

11-17

33万+

本文，我们讲述Pandas如何去除重复项的操作，我们选择一个评价数据集来演示如何删除特定列上的重复项，如何删除重复项并保留最后一次出现，以及drop_duplicates的默认用法

pandas使用drop_duplicates去除DataFrame重复项参数详解

tomato_guo的博客

04-16

7万+

DataFrame中存在重复的行或者几行中某几列的值重复，这时候需要去掉重复行，示例如下： data.drop_duplicates(subset=['A','B'],keep='first',inplace=True) 代码中subset对应的值是列名，表示只考虑这两列，将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。 keep='first'表示保留第一次...

Python 之异常值/离群值的处理

数据媛

06-22

2万+

离群值离群值是指与集合中其他观测值差异较大的任何数据点。例如：当一个学生的平均成绩在90%以上，而其他小组的成绩在70%，就会出现明显的离群现象。通过分析某个客户的购买模式，突然出现了一个非常高价值的购买（如10万）。虽然某客户的交易额大多在1万左右波动。不管是什么原因，10万的购买量在整体数据中都是一个异数。乌塞恩-博尔特--记录短跑绝对是排放当大多数运动员被考虑。异常值存在的原因有很多。有可能是分析人员在输入数据时出错，也有可能是设备产生了测量误差，甚至有可能是故意离群。如果有

【Python专题】pandas.melt函数

数据媛

08-04

1万+

大家经常把melt函数和透视表pivot_table函数放在一起对比。同时，这里有一篇不错的对比的文章。Pandas melt和pivot_table比excel透视表好用多了以及pandas行转列，列转行操作一、作用 pandas.melt函数是为了将数据转换为对计算机友好的函数，当然，也是为了更加便于计算。它主要是可以将在宽度上的表现形式转换为在长度上的表现形式。（Pandas.melt() unpivots a DataFrame from wide format to long f

unique（）和drop_duplicates()