数据分析前的准备工作包括:首先是要明确问题以及分析的方向,其次数据的收集,然后是数据的清洗,最后是数据的分析工作。整个过程最错综复杂的就是数据清洗工作,本次尝试着把之前遇到的数据清洗的一些步骤和方法做一个总结,并且随着以后的工作和学习不断完善。
1、数据预处理当我们导入一份数据后,我们需要对数据的大概有个了解。利用描述性统计可以很方便的对数据有个大致的了解,数据包括数值类型和非数值类型(一般是Object),通过对count max min mean std 等以及 唯一值 出现次数最多的(top),频率等信息的观察可以很好的为下面的步骤做铺垫。#数值类型
data.describe().T
#非数值类型
select_dtypes(include=[‘O’]).describe().T2.数据缺失值处理:python缺失值有3种:1)Python内置的None值2)在pandas中,将缺失值表示为NA,表示不可用not available。3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。 后面出来数据,如果遇到错误:说什么float错误,那就是有缺失值,需要处理掉所以,缺失值有3种:None,NA,NaN