【pandas 基本操作：数据清洗】

一杯冰糖

已于 2022-06-14 20:23:15 修改

阅读量1.7k

点赞数 4

分类专栏：数据处理 pandas 文章标签：数据分析 python

于 2022-06-09 22:39:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45186086/article/details/125211845

版权

pandas 同时被 2 个专栏收录

16 篇文章 8 订阅

订阅专栏

5 篇文章 5 订阅

订阅专栏

pandas 基本操作

第一章数据清洗
 第二章数据合并
 第三章数据重塑
第四章数据转换

文章目录

pandas 基本操作
前言
1.空值和缺失值的处理
2.重复值的处理
3.更改数据类型

前言

数据清洗是一项复杂且繁琐的工作，同时也是整个数据分析过程中最为重要的环节。

数据清洗的目的在于提高数据质量，将脏数据清洗干净，使原数据具有完整性、唯一性、权威性、合法性、一致性等特点

脏数据在这里指的是对数据分析没有实际意义、格式非法、不在指定范围内的数据。

1.空值和缺失值的处理

空值一般表示数据未知、不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的。

一般空值使用None表示，缺失值使用NaN表示。

详细处理可以看：pandas 数据清洗：空值None和缺失值NaN的处理

2.重复值的处理

处理数据时难免会发现数据中存在部分重复值，对于重复值的查询及删除可以使用duplicated()方法和drop_duplicates()方法
对于这两种方法的使用可以参考：pandas 重复值的处理：duplicated及drop_duplicates

3.更改数据类型

在处理数据时，可能会遇到数据类型不一致的问题。例如，通过爬虫采集到的数据都是整型的数据，在使用数据时希望保留两位小数点，这时就需要将数据的类型转换成浮点型。

我们可以通过astype()方法强制转换数据的类型。
但是次方法又存局限性，所以可以通过to_numeric()函数进行更改；
对于这两种方法的使用可以参考：pandas 数据类型转换：astype（）和to_numeric（）用法

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。