Python数据清洗函数总结

不变の永远

已于 2024-01-05 11:19:57 修改

阅读量646

点赞数

分类专栏： Python数据分析文章标签： python 开发语言

于 2023-02-26 15:27:12 首次发布

本文链接：https://blog.csdn.net/qq_40705735/article/details/126329239

版权

Python数据分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、数据清洗

// 读取csv文件
data = pd.read_csv('xxx.csv', encoding='gbk')
//查看列数、列名、列数据量、列格式等
data.info()

删除重复记录drop_duplicates()

data.drop_duplicates(keep = 'xxx',inplace=True)
# keep保留xxx行

查看是否存在缺失值isnull()

data.isnull().sum()

删除缺失值dropna()

# 删除带有na的整行数据
data.dropna(axis=0,how='any',inplace=True)
# axis=0,how='any'为默认值， how='all'为当整条记录所有字段均为na时。

删除非必要列drop()

data.drop(columns=['xxx'], inplace=True,axis=n)
#axis为按列删除第n列，列号为0,1,2,3......

更新索引reset_index()

# 删掉原索引，重置索引
data.reset_index(drop=True,inplace=True)

异常值处理

异常值：存在0值、数据标准差std在均值mean八倍以上等

# 查看数据 count、mean、std、min、25%、50%、75%分位数、max
data.describe()

更新数据类型

推荐使用to_numeric()，小心使用astype()，可以尝试使用infer_objects()。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不变の永远

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Python数据清洗函数总结

数据清洗
复制链接

扫一扫

专栏目录

chatgpt赋能python：Python数据清洗：如何用Python清洗CSV文件数据

shengcaiy123的博客

06-23

1075

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

干货！用Python进行数据清洗方式，这几种都很常见！

weixin_49669074的博客

08-26

5155

数据分析中，数据清洗是一个必备阶段。数据分析所使用的数据一般都很庞大，致使数据不可避免的出现重复、缺失、异常值等异常数据，如果忽视这些异常数据，可能导致分析结果的准确性。用以下数据为例，进行讲解数据清洗常用方式：重复值处理重复值处理，一般采用直接删除重复值的方式。在pandas中，可以用duplicated函数进行查看和drop_duplicates函数删除重复数据。如下所示，可以通过duplicated函数查看重复的数据: 需要删除重复值时，可直接用drop_duplicates函数完成：

1 条评论您还未登录，请先登录后发表或查看评论

python数据清洗语句_【python】数据清洗

weixin_39528843的博客

11-29

241

1.处理缺失值判断是否含缺失值/统计缺失值#判断## 判断列是否存在nadf.isnull().any() #返回booldf.notnull()#统计df.isnull().sum()df['col_name'].value_counts(dropna=False) #分类汇总该列并统计缺失值筛选所有含缺失值的表格df[df.col_name.isnull()]删除含缺失值的数据df.drop...

8个数据清洗Python代码，复制可用，最长11行

涛哥聊Python

11-16

370

原作 Kin Lim Lee乾明编译整理量子位出品 | 公众号 QbitAI最近，大数据工程师Kin Lim Lee在Medium上发表了一篇文章，介绍了8个用于数据清洗的Python代码。数据清洗，是进行数据分析和使用数据训练模型的必经之路，也是最耗费数据科学家/程序员精力的地方。这些用于数据清洗的代码有两个优点：一是由函数编写而成，不用改参数就可以直接使用。二是非常简单，加上注释最长的也不...

python数据清洗1

weixin_68746494的博客

01-19

975

python数据清洗1

python reset_index()_python 问题 reset_index(drop=True

weixin_29144347的博客

01-28

6735

reset_index用来重置索引，因为有时候对dataframe做处理后索引可能是乱的。drop=True就是把原来的索引index列去掉，重置index。drop=False就是保留原来的索引，添加重置的index。两者的区别就是有没有把原来的index去掉。此外还有一个参数：inplaceinplace=False(默认)表示原数组不变，对数据进行修改之后结果给新的数组。inplace=Tr...

Python进行数据清洗的方法

最新发布

sunny

08-17

1616

1. 缺失值处理：使用pandas库中的fillna()函数可以填充缺失值。1. 数据标准化：使用sklearn库中的StandardScaler类可以将数据标准化，使其具有零均值和单位方差。1. 去除重复值：使用pandas库中的drop_duplicates()函数可以删除数据集中的重复行。1. 数据类型转换：使用pandas库中的astype()函数可以将数据列的数据类型转换为其他类型。Python中常用的数据清洗和预处理方法，但具体的方法取决于你的数据集和分析目的。

Python数据清洗总结

weixin_41960390的博客

05-21

1665

文章目录1.数据清洗常用工具1.1numpy1.2pandas2.文件读写2.1 CSV文件读写2.2 Excel文件读写2.3 MySQL文件读写3.数据表操作3.1 数据常用的筛选方法3.2 数据增加和删除3.3 数据修改和查找3.4 数据整理3.5 层次化索引4.数据转换4.1日期格式数据处理4.2 高阶函数数据处理4.3字符串数据处理5.数据统计5.1 数据分组运算5.2 聚合函数使用5....

Python 数据清洗

ww08153115的博客

07-09

882

文章目录1. 查看数据1.1. 数据抽样1.2. 数据形状1.3. 数据整体情况2. 缺失值处理2.1. 统计缺失值判断缺失统计缺失2.2. 删除缺失值删除方法按行删除按列删除2.3. 填补缺失值填补方法固定值填补上下值填补3. 数据类型处理修改数据类型格式正确基于第三方库Numpy及Pandas 进行数据清洗 1. 查看数据查看数据数据抽样整体概况字段解读数据形状判断数据规模 1.1. 数据抽样查看前n条数据 : data.head(n) 默认前5条查看后n条数据: data.tail(n) 默

Python数据清洗实践

01-27

总之，Python数据清洗实践涉及一系列方法和技术，包括但不限于缺失值处理、数据类型转换、不一致数据修复、异常值检测和无用数据删除。熟悉并熟练运用这些工具，能显著提升数据处理效率，确保数据分析的可靠性和有效...

python数据清洗Pandas指导手册

01-28

Python数据清洗是数据分析过程中的重要环节，Pandas库则是Python中进行数据操作和清洗的核心工具。本手册将深入探讨如何利用Pandas有效地处理和清洗数据，以帮助初学者快速掌握这一技能。一、Pandas简介 Pandas是...

python数据清洗学习记录–文件读写

12-21

python数据清洗学习记录–文件读写目录python数据清洗学习记录–文件读写csv文件读写excel文件读写数据库文件的读写创建连接，连接MySQL数据保存前期准备： #导入os模块 import os #获得当前路径地址 os.getcwd() ...

python数据清洗实例.docx

06-12

总结来说，Python在数据清洗方面的强大功能使得处理复杂的数据集变得简单。通过缺失值处理、数据类型转换、重复数据处理、数据筛选和数据合并，我们可以有效地准备数据，为后续的分析和建模打下坚实基础。在实际工作...

数据清洗之高阶函数处理

12-21

在Python的Pandas库中，`apply()`函数和`map()`函数是两个用于数据清洗的高效工具。 `apply()`函数允许用户自定义处理逻辑，对DataFrame的行或列应用指定的函数。在例子中，`apply()`被用来根据'gender'列的值（0、...

关于 Python 之 Pandas 的总结

放荡者的茶会

09-10

963

文章目录通用导包格式控制数据结构Series基本操作DataFrame基本操作运算操作nan对齐通用函数文件操作CSV文件ExcelHDF5数据整理排序和排名排序排名数据框连接数据分段多级索引字符串处理分组统计时间序列**时间频率变换**：Panel 通用 conda update pandas #升级panda pd.__version__ #显示版本导包 import numpy as np import pandas as pd from pandas import DataFrame, Ser

主成分分析（PCA）及其可视化——python

热门推荐

PY洋洋

11-17

9万+

一、主成分分析的原理主成分分析是利用降维的思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息，从而更容易抓住主要矛盾，揭示事物内部变量之间的规律性，同时使问题得到简化，提高分析效率。主成分分析正是研究如何通过原来变量的少数几个线性组合...

python数据清洗的三个常用的处理方式！

梦在硅谷的博客

12-19

3964

另外一种则是部分相同指的是某个列的数据是相同的需要清洗。从列名称的打印结果发现’姓名’这一列是存在空格的，我们直接查找列名称是找不到的，因为需要对列名称的空格进行数据清洗。返回的每一个单元格数据结果为False则代表这个单元格的数据是没有缺失的，或者也可以使用notnull来反向查看。准备一下需要处理的脏数据，这里选用的是excel数据，也可以选择其他的格式数据，下面是源数据截图。因为最后一行和第一行的数据是完全相同的，因此最后一行的数据已经被清洗掉了。

Python数据清洗

m0_53317797的博客

09-15

3578

a利用python的pandas库以及numpy库实现对animal.csv，泰坦尼克号数据集计算生还比例，商品的信息（价格，成交量，卖家位置）的操作

使用 Python 进行数据清洗的完整指南

deephub

03-28

9950

你一定听说过这句著名的数据科学名言：在数据科学项目中， 80% 的时间是在做数据处理。如果你没有听过，那么请记住：数据清洗是数据科学工作流程的基础。机器学习模型会根据你提供的数据执行，混乱的数据会导致性能下降甚至错误的结果，而干净的数据是良好模型性能的先决条件。当然干净的数据并不意味着一直都有好的性能，模型的正确选择（剩余 20%）也很重要，但是没有干净的数据，即使是再强大的模型也无法达到预期的水平。在本文中将列出数据清洗中需要解决的问题并展示可能的解决方案，通过本文可以了解如何逐步进行数据清洗

python 数据清洗

07-27

数据清洗是在数据处理过程中的一项重要任务，它包括处理数据中的重复观测、缺失值和异常值等问题。在Python中，可以使用不同的方法来进行数据清洗。引用\[1\]中的代码展示了如何检测和处理缺失值。在这个例子中，使用了pandas库来生成一个包含缺失值的数据序列，并使用isnull()函数来检测缺失值。接着使用fillna()函数来处理缺失值，可以选择用特定的值或者前一行/后一行的值来填充缺失值。引用\[2\]提供了一个数据清洗的大纲，包括常用的数据清洗方法和策略。其中包括处理重复观测、缺失值和异常值的方法。引用\[3\]展示了使用插值法来处理缺失值的示例代码。在这个例子中，使用了pandas库的fillna()函数，并选择了不同的插值方法来填充缺失值。综上所述，Python提供了丰富的工具和方法来进行数据清洗，可以根据具体的需求选择合适的方法来处理数据中的问题。 #### 引用[.reference_title] - *1* *2* *3* [Python数据清洗 | 常用的数据清洗方法](https://blog.csdn.net/GODSuner/article/details/114447458)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交