python去重复的数据_Pandas的数据清洗-删除重复数据

最新推荐文章于 2024-02-27 15:05:39 发布

weixin_39964978

最新推荐文章于 2024-02-27 15:05:39 发布

阅读量534

点赞数

文章标签： python去重复的数据

22. Pandas的数据清洗-删除重复

在Pandas里有duplicated函数可以查询到数据里是否有重复的数据，可以用drop_duplicates函数删除重复数据。

import pandas as pd

import numpy as np

col = ["apple", "pearl", "watermelon"] * 4

pri = [2.50, 3.00, 2.75] * 4

df = pd.DataFrame({"fruit": col, "price" : pri})

print df

print df.duplicated()

print df.drop_duplicates()

程序的执行结果:

fruit price

0 apple 2.50

1 pearl 3.00

2 watermelon 2.75

3 apple 2.50

4 pearl 3.00

5 watermelon 2.75

6 apple 2.50

7 pearl 3.00

8 watermelon 2.75

9 apple 2.50

10 pearl 3.00

11 watermelon 2.75

0 False

1 False

2 False

3 True

4 True

5 True

6 True

7 True

8 True

9 True

10 True

11 True

dtype: bool

fruit price

0 apple 2.50

1 pearl 3.00

2 watermelon 2.75

如果想影响dataframe本身，启用函数的inplace=True参数。

如果想保留重复出现最后出现的数据可以使用keep参数。

import pandas as pd

import numpy as np

col = ["apple", "pearl", "watermelon"] * 4

pri = [2.50, 3.00, 2.75] * 4

df = pd.DataFrame({"fruit": col, "price" : pri})

print df

print df.duplicated()

print df.drop_duplicates()

print df.drop_duplicates(keep="last")

程序执行结果：

fruit price

0 apple 2.50

1 pearl 3.00

2 watermelon 2.75

3 apple 2.50

4 pearl 3.00

5 watermelon 2.75

6 apple 2.50

7 pearl 3.00

8 watermelon 2.75

9 apple 2.50

10 pearl 3.00

11 watermelon 2.75

0 False

1 False

2 False

3 True

4 True

5 True

6 True

7 True

8 True

9 True

10 True

11 True

dtype: bool

fruit price

0 apple 2.50

1 pearl 3.00

2 watermelon 2.75

fruit price

9 apple 2.50

10 pearl 3.00

11 watermelon 2.75

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39964978

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

chatgpt赋能python：Python去除相同数据方法详解

atest166的博客

06-04

1574

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

python 剔除nan_Pandas的数据清洗-删除NaN数据

weixin_39941847的博客

12-04

1875

20. Pandas的数据清洗-删除NaN数据清洗(Tidy Data)，是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。Pandas提供了很多的工具和函数可以对缺失、重复的数据进行相应的数据的处理。20.1 构造缺失数据在Pandas的各类数据Series和DataFrame里字段值为NaN的为缺失数据，不代表0而是说没有赋值数据。数据的缺失有很多原因，...

参与评论您还未登录，请先登录后发表或查看评论

python去重复的数据_Python重复数据消除,python,去

weixin_34582773的博客

02-10

1143

def func3(one_list):'''''使用列表推导的方式'''temp_list=[]for one in one_list:if one not in temp_list:temp_list.append(one)return temp_list在网上查的，自己在力扣练习没通过,不知道原因class Solution(object):def removeDuplicates(self...

Python进阶：Pandas -- 清理重复数据

热门推荐

lb0737的博客

07-12

7万+

方式一、转换为集合再转换为列表 list1=[11,22,11,22,33,44,55,55,66] print(list1) print(list(set(list1))) #输出结果 #[11, 22, 11, 22, 33, 44, 55, 55, 66] #[33, 66, 11, 44, 22, 55] 方式二、循环遍历去除重复项后在写入 list1=[11,22,11,...

Python_pandas_数据清洗和预处理.docx

09-17

### Python_pandas_数据清洗和预处理 #### 1. 数据审核在数据科学项目中，数据审核是确保数据质量的第一步。通过使用Pandas库中的`head()`, `dtypes` 和 `describe()` 函数可以对数据进行初步检查。 - **`data....

python pandas数据清洗_Pandas进行数据清洗的方法介绍

weixin_35403151的博客

02-09

1777

Pandas进行数据清洗的方法介绍，数据清洗是一项复杂且繁琐的工作，同时也是整个数据分析过程中最为重要的环节。Pandas中常见的数据清洗操作有空值和缺失值的处理、重复值的处理、异常值的处理、统一数据格式等。前期采集到的数据或多或少都存在一些瑕疵和不足，如数据缺失、极端值、数据格式不统一等问题。在分析数据之前需要对数据进行预处理，包括数据的清洗、合并、重塑与转换。Pandas中专门提供了用于数据预...

Python数据预处理.rar_Python数据处理_python_python 预处理_数据清洗_数据预处理

07-15

在Python中，常用的库如Pandas提供了强大的数据清洗功能。例如，可以使用`dropna()`去除缺失值，`fillna()`填充缺失值，`replace()`替换特定值，以及`isnull()`和`notnull()`检查缺失值。 2. **数据整合**：数据...

pandas官方文档中文版_pandas_数据清洗_

10-01

本篇文章将深入探讨Pandas在数据清洗方面的应用。在数据清洗过程中，Pandas提供了多种工具和函数，帮助我们处理不完整、错误或格式不一致的数据。首先，我们来看一下**缺失数据的处理**。Pandas使用`NaN`表示缺失...

学习笔记(32):Python数据清洗实战-重复值处理

qq_43526870的博客

02-11

329

本次课程主要以真实的电商数据为基础，通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。

Python Pandas去重复数据drop_duplicates详解

Disany的博客

09-13

4万+

pandas.DataFrame.drop_duplicates DataFrame.drop_duplicates（subset = None,keep ='first',inplace = False ）参数 subset：列标签，可选 keep： {‘first’, ‘last’, False}, 默认值 ‘first’ first：删除第一次出现的重复项。 last： ...

python 数据清洗（保留3条手机号重复的数据，多余的删除）

Eitaqx 的博客

11-30

487

学习的过程中总是能遇到各种各样的问题清理手机号重复的数据，但要求，每个手机号留存 3条思路首先手机号分组查询，每次查询 100 组（也就是把手机号相同的数据归纳到一起，并按照重复数量降序，取前 100个不相同手机号）根据手机号获取对应手机号的所有 id 保留前三个 id，删除多余的数据思路有了动手吧！ config.ini 通用的配置信息，按个人习惯使用 [config] auth = Eitaqx@163.com version = 1.0.0 desc = config.ini # 仅

根据某一列的进行去重的小工具----duplicated.exe

weixin_43949246的博客

04-20

877

在处理表达谱数据的时候，你是否遇到过在设置行名的时候，出现行名不同重复的问题，那时候的你会怎么处理呢？当年的我，花费了很大的力气，最后才解决这个问题，由刚开始的用excel一个一个手动删除，到现在用脚本删除，这个过程用了很长时间。现在为了让初学者更容易解决这个问题，不再走小编当前走过的艰难老路，小编将该部分功能进行封装，并做了可视化的界面，方便大家更好的理解和使用！首先，该软件是用python包装，大家需要在使用前安装python3.8及以上的版本，安装完成后，退出杀毒软件，解压压缩包。压缩包下有这么几

python列表删除重复值（十种方法）

m0_67790374的博客

08-21

1万+

python列表删除重复值（十种方法）

python--如何进行去重

weixin_44688529的博客

06-10

1万+

解析思路： 1、确定去重目标 2、给一个空列表去接收去重后的元素 3、遍历需要去重的序列，将重复数据过滤 4、打印去重后的数据输出结果：二、内置函数去重输出结果：可以看出去重后改变了序列的顺序，所以去重后需要按元素索引进行排序，才会保持序列的原有顺序代码如下：输出结果：...

python去重复

我点评的博客

03-10

3243

但是，由于Python语言的灵活性，有时候我们会在代码中出现重复的部分，这就需要我们进行去重复操作。Python去重复的方法有很多种，其中最常用的是使用set()函数。set()函数可以将一个列表或元组转换成一个集合，集合中的元素是唯一的，这样就可以去除重复的元素。无论使用哪种方法，去重复都是Python编程中常用的操作之一，可以提高代码的效率和可读性。除了使用set()函数，还可以使用字典的方式去重复。字典中的键是唯一的，因此可以将列表中的元素作为键，将值设为1，这样就可以去除重复的元素。

Python-pandas处理数据-删除重复数据

Welcome to the Matrix

03-03

8316

Python-pandas处理数据-删除重复数据摘要应用场景代码实现结果摘要本文介绍实际情况中如何删除一行完全一样的数据应用场景如图，在实际情况中，有这样一组数据：数据中有很多行的数据都是相同的，为了删除这些多余的数据，可以利用Python的pandas库来清洗数据。代码实现 import pandas as pd data = pd.read_csv('D:\\CMT\\casm-f...

python 移除重复数据

lixixi

01-27

2088

# encoding=utf-8 # 移除重复数据 import pandas as pd import numpy as np data = pd.DataFrame({ 'k1': ['one'] * 3 + ['two'] * 4, 'k2': [1, 1, 2, 3, 3, 4, 4] }) # print 'data:=\n', data # print 'data.

Python Pandas：数据清洗与缺失值处理详解

4. 移除重复数据：`duplicated()`函数返回一个布尔型Series，标记DataFrame中的重复行。`drop_duplicates()`则用于移除这些重复行，可以指定基于特定列的重复性检查。 5. 数据筛选和过滤：在处理DataFrame时，可以...