数据预处理——缺失值分析与处理
缺失值分析
数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确。
缺失值产生的原因
- 信息暂时无法获取,或者获取信息的代价太大 ;
- 有些信息被遗漏或者被忽略,数据理解出错等问题导致缺失值产生 ;
- 数据采集设备故障、存储介质故障、传输媒体故障等非人为原因导致 ;
- 属性值不存在,某些情况下缺失值并不意味着数据有错误,如未婚者的配偶姓名,一名儿童的固定收入 。
缺失值分析
一般采用简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数与缺失率等。
缺失值的处理
1.删除存在缺失值的记录
2.对可能值进行插补
3.不做处理
用python做缺失值分析与处理
1.数据文件(来自书本配套数据文件)
以下为数据文件的部分截图,2015-02-14的销量数据为空。
2.代码
对于一个数据文件,拿到后的第一件事就是查看数据有哪些属性,数据大概是什么样子的,因此可以通过head()或者t