文章目录
1.数据清洗
1.1空值和缺失值处理
空值一般表示数据未知、不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的,产生的原因主要有人为原因和机械原因两种,其中机械原因是由于机器故障造成数据未能收集或存储失败,人为原因是由主观失误或有意隐瞒造成的数据缺失。
一般空值使用None表示,缺失值使用NaN表示。Pandas中提供了一些用于检查或处理空值和缺失值的函数,其中,使用isnull)和notnull)函数可以判断数据集中是否存在空值和缺失值,对于缺失数据可以使用dropna()和 fillna()方法进行删除和填充。
1.2重复值的处理
1.3异常值的处理
(1)基于拉依达原则检测异常值
(2)基于箱线图检测异常值
1.4更改数据类型
(1)明确指定数据类型
(2)通过astype()方法强制转换数据的类型
(3)通过to_numeric()函数转换数据类型
注意:不能操作DataFrame对象!!!
2.数据合并
2.1 轴向堆叠数据
concat()函数可以沿着一条轴将多个对象进行堆叠,其使用方式类似数据库中的数据表合并,该函数的语法格式如下:
(1)横向堆叠与外连接
其实可以看做是横向并集,应该可以吧
(3)纵向堆叠与内连接
都有B、C列,所以将这两列的数据沿着纵横方向进行堆叠。
2.2 主键合并数据
右连接与左连接相反
2.3根据行索引合并数据
2.4 合并重叠数据
3.数据重塑
3.1重塑层次化索引
(1)stack()方法
(2)unstack()方法
3.2 轴向旋转
4.数据转换
4.1重命名轴索引
4.2 离散化连续数据
4.3 哑变量处理类别型数据
哑变量又称虚拟变量、名义变量,从名称上看就知道,它是人为虚设的变量,用来反映某个变量的不同类别。使用哑变量处理类别转换,事实上就是将分类变量转换为哑变量矩阵或指标矩阵,矩阵的值通常用“0”或“1”表示。
假设变量“职业”的取值分别为司机、学生、导游、工人、教师共5种选项,如果使用哑变量表示,则可以分别表示为col_司机( 1=司机/0=非司机)、col_学生( 1=学生/0=非学生)、col_导游( 1=导游/0=非导游) 、 col_工人( 1=工人/0=非工人) 、 col_教师( 1=教师/O=非教师),使用哑变量处理后的结果如图4-29所示。