【pandas 基本操作:数据清洗】

pandas 基本操作

第一章 数据清洗
第二章 数据合并
第三章 数据重塑
第四章 数据转换



前言

数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。

数据清洗的目的在于提高数据质量,将脏数据清洗干净,使原数据具有完整性唯一性权威性合法性一致性等特点

脏数据在这里指的是对数据分析没有实际意义格式非法不在指定范围内的数据。


1.空值和缺失值的处理

空值一般表示数据未知不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的

一般空值使用None表示,缺失值使用NaN表示。

详细处理可以看:pandas 数据清洗:空值None和缺失值NaN的处理

2.重复值的处理

处理数据时难免会发现数据中存在部分重复值,对于重复值的查询及删除可以使用duplicated()方法和drop_duplicates()方法
对于这两种方法的使用可以参考:pandas 重复值的处理:duplicated及drop_duplicates

3.更改数据类型

在处理数据时,可能会遇到数据类型不一致的问题。例如,通过爬虫采集到的数据都是整型的数据,在使用数据时希望保留两位小数点,这时就需要将数据的类型转换成浮点型。

我们可以通过astype()方法强制转换数据的类型。
但是次方法又存局限性,所以可以通过to_numeric()函数进行更改;
对于这两种方法的使用可以参考:pandas 数据类型转换 :astype()和to_numeric()用法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值