pandas 去重删除等技巧

最新推荐文章于 2025-02-14 06:45:28 发布

butterfly1107

最新推荐文章于 2025-02-14 06:45:28 发布

阅读量2.7k

点赞数

本文链接：https://blog.csdn.net/butterfly1107/article/details/79923810

版权

1、该列如果为空用其他列填充：

df_mrg.ix[df_mrg.contact.isnull(),'contact'] = df_mrg['contact2']

2、去重

data_np = data.drop_duplicates() ,data所有列完全相同才会删除

data_np = data.drop_duplicates(['a','b'])

去重机制，去重是保留第一条记录还是最后一条记录，可以通过drop_duplicate中的参数keep控制

data.drop_duplicates(['a','b'],keep='last'),默认保留第一个出现的值

替换原数据集

new_list_2.drop_duplicates('orgcode',inplace=True)

3、删除某一列或多列

删除一列，del data['a']

删除多列，raw_4.drop(labels=['orgcode','city'],axis=1)

4、对列名排序

pandas DataFram 如何制定列的顺序（默认列名字典顺序）

问题：默认的是按照列名的字典顺序排序的，要固定顺序，按照自己想要的顺序。

解决方案：

加columns字段即可

例子：

columns = ['cmt','class_label','test_label','predict_label']

df.to_csv("cnn_predict_result.csv",encoding="utf_8_sig",index=False,columns=columns)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

butterfly1107

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用 Pandas 合并多源数据并去重

2201_76125261的博客

04-07

191

在数据科学和机器学习领域，数据是驱动分析和建模的核心。通常，数据来源多样，格式复杂，且在多个系统或平台之间分布。数据来源多样：数据可能来自多个文件（CSV、Excel、JSON等）或不同的数据库（SQL、NoSQL）。这些数据需要合并在一起才能进行统一的分析。重复数据：由于数据来源的不同，可能存在重复记录或冗余信息，影响数据质量，从而影响后续的分析和建模结果。在这些情况下，如何高效地合并多源数据，并去除冗余数据，成为了每个数据工程师和数据科学家必须掌握的技能。幸运的是，Python 提供了强大的库。

pandas去除重复列的实现方法

09-19

主要介绍了pandas去除重复列的实现方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

参与评论您还未登录，请先登录后发表或查看评论

pandas列去重

cuisidong1997的博客

08-05

5550

pandas 行去重直接使用duplicated()就行列去重有多种方法： 1、Monitorallall.drop(Monitorallall.columns[0:2], axis=1, inplace=True) 本质上是获取列名然后删除，会把所有的重复列名的列都删除，不能使用 2、使用转置后类似删除行删除，再转置回来 Monitorallall=resultall[columnslist].T.drop_duplicates().T 但是会有行丢失 3、使用Monitorallall = resul

Pandas Series 如何去除重复数据？

最新发布

AI Agent 首席体验官

02-14

349

重复数据是指在数据集中出现多次相同的值。可以使用和来查找和去除重复值。

【Pandas】【碎碎念】数据list对象去重，转字符串

weixin_42279212的博客

10-28

912

list对象去重，利用set方法去重 rawIP['attack_mode_name_cn'].apply(set) 去重后转换回list对象 rawIP['attack_mode_name_cn'].apply(set).apply(list) 去重后转字符串对象 rawIP['attack_mode_name_cn'].apply(set).str.join(',') 去重时，考虑list对象顺序 rawIP['attack_mode_name_cn'].apply(lambda .

python pandas 去重

weixin_38853854的博客

08-13

6050

newdata.drop_duplicates(subset=['A','B','C','D'],keep=False) 当keep=False时，就是去掉所有的重复行当keep=‘first’时，就是保留第一次出现的重复行当keep=’last’时就是保留最后一次出现的重复行。（注意，这里的参数是字符串）...

Pandas去重函数：drop_duplicates()

ccc369639963的博客

04-18

2555

Pandas去重函数：drop_duplicates() “去重”通过字面意思不难理解，就是删除重复的数据。在一个数据集中，找出重复的数据删并将其删除，最终只保存一个唯一存在的数据项，这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重，不仅可以节省内存空间，提高写入性能，还可以提升数据集的精确度，使得数据集不受重复数据的影响。 Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates()，本节对该函数的用法做详细介绍。函数格式 drop

【数据预处理技巧】：pandas去重数据的6大必杀技

[【数据预处理技巧】：pandas去重数据的6大必杀技](https://cdn.educba.com/academy/wp-content/uploads/2020/07/Pandas-drop_duplicates.jpg) # 摘要数据预处理是数据分析中关键的一步，其中数据去重尤为必要，它...

【数据清洗】Pandas库数据去重Python实际操作

longxiaotian718的博客

01-03

890

默认情况下，会保留第一次出现的重复项。但如果你想要保留最后一次出现的重复项，可以设置print("\n保留重复项中最后一行的DataFrame:")

pandas 索引去重_数据预处理实战（1）

weixin_33245447的博客

12-23

247

目录1. 前言2. 数据字典3. 优雅使用pandas3.1 读取数据3.2 索引与选取3.3 布尔索引3.4 去重3.5 分组3.6 数据框的合并(1)横向合并(2)纵向合并3.7 排序(ORDER )与替换(REPALCE)4. 衍生变量与数据编码4.1 apply函数4.2 map函数5. 数据描述6. 数据质量6.1 缺失值6.2 异常7. 数据分箱(离散化)1、前言数据挖掘的关键在于数据...

Python字符串去重与替换技巧：掌握replace()和deduplicate

[Python字符串去重与替换技巧：掌握replace()和deduplicate](https://blog.finxter.com/wp-content/uploads/2020/10/regex_sub-1024x576.jpg) # 1. 字符串去重与替换的基础知识在处理文本数据时，我们经常遇到需要...

python数据处理——pandas去除有Nan的行

热门推荐

m0_37876745的博客

12-14

1万+

dataframe.dropna()ji'k即可

Python小技巧--pandas多样化去重【实践】

故事猝不及防，发量秃如其来

09-02

3900

pandas数据处理之数据去重，pandas.DataFrame.drop_duplicates()与 pandas.DataFrame.duplicated()，多列去重以及互换列去重

Pandas数据分析去重：去重，真的只是去除一样的行或列吗？

weixin_45380689的博客

11-27

3516

数据分析去重讲解

pandas---删除重复行、映射、异常值检测与过滤、抽样

weixin_43961909的博客

06-15

3205

返回布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True。映射的含义：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定。唯一，去重，DataFrame没有unique，Series调用unique。，map()函数中可以使用lambda函数，适合处理某一单独的列。：既支持 Series，也支持 DataFrame。使用duplicated()函数检测重复的行。可以求得DataFrame对象每一列的标准差。查看每一列的描述性统计量。

Python进阶：Pandas -- 清理重复数据

创作高质量博文，分享知识，共同进步！

02-27

3910

🌵 深入探索Python进阶之路，Pandas库成为我们清理重复数据的得力助手！🔥 在数据处理的旅程中，重复数据常常成为我们的绊脚石。但是，借助Pandas的`drop_duplicates()`函数，我们可以轻松地去重，让数据更加整洁！🔍 在这个过程中，我们深入了解了`drop_duplicates()`的参数，如`subset`、`keep`等，以便更灵活地处理数据。📕 回顾与收获时刻，我们感慨Pandas的强大与便捷，同时也期待与您共同成长，探索更多数据处理的奥秘！🤗

pandas数据预处理------去除‘记录重复’的3种方法

ThinkPet

09-28

7559

常见的数据重复包括： 1.记录重复--一个或多个特征的某条记录的值完全相同 2.特征重复--存在一个或者多个特征名称不同，但数据完全相同的情况去除‘记录重复’的3种方法 # coding: utf-8 # 去除‘记录重复’的3种方法 # 法1---利用list去重 import pandas as pd detail=pd.read_csv(r'D:\save\detail.c...

pandas 索引去重_pandas去重、替换和重命名索引

weixin_31225063的博客

12-23

2101

简介本文将介绍pandas的几个实用操作——去重、替换和重命名索引。去除重复数据在DataFrame中经常会碰到重复行数据，比如：>>>import numpy as np>>>import pandas as pd>>>a = pd.DataFrame({'n1': list('aaabbbb'), 'n2': [1, 1, 2, 3, 3,...

Pandas文本数据

weixin_49585969的博客

01-07

309

一、合并功能（一）merge：pd.merge() 类似于vlookup 函数的作用，只会返回两个表中都含有的元素。表达形式 pd.merge(left,right,how = 'None', on ='None',left_on = 'None',right_on = 'None', left_index = 'None',right_index= 'None',sort = True,suffies = ('_x','_y'),copy =True,indicator =False) on 表示按