pandas 基本操作
第一章 数据清洗
第二章 数据合并
第三章 数据重塑
第四章 数据转换
前言
数据清洗是一项复杂且繁琐
的工作,同时也是整个数据分析过程中最为重要
的环节。
数据清洗的目的在于
提高数据质量
,将脏数据
清洗干净,使原数据具有完整性
、唯一性
、权威性
、合法性
、一致性
等特点
脏数据
在这里指的是对数据分析没有实际意义
、格式非法
、不在指定范围内
的数据。
1.空值和缺失值的处理
空值一般表示数据未知
、不适用
或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的
。
一般空值使用
None
表示,缺失值使用NaN
表示。
详细处理可以看:pandas 数据清洗:空值None和缺失值NaN的处理
2.重复值的处理
处理数据时难免会发现数据中存在部分重复值,对于重复值的查询及删除可以使用duplicated()
方法和drop_duplicates()
方法
对于这两种方法的使用可以参考:pandas 重复值的处理:duplicated及drop_duplicates
3.更改数据类型
在处理数据时,可能会遇到
数据类型不一致
的问题。例如,通过爬虫采集到的数据都是整型的数据,在使用数据时希望保留两位小数点,这时就需要将数据的类型转换
成浮点型。
我们可以通过astype()
方法强制转换数据的类型。
但是次方法又存局限性,所以可以通过to_numeric()
函数进行更改;
对于这两种方法的使用可以参考:pandas 数据类型转换 :astype()和to_numeric()用法