主要是整理自己在数据挖掘课程上所做的一些笔记。
更多内容可以访问我的个人博客。
数据预处理(data-preprocessing)
- 数据预处理概论
(1)为什么要对数据进行处理
为了数据的质量:
不准确、不完整和不一致的数据在现实世界的数据库和数据仓库中很常见。
为了数据的实时性,实时性也影响数据质量(用户不及时更新数据)。
为了数据的可信度,可信度反映了用户对数据的信任程度。
为了数据的可解释性,可解释性反映了对数据的理解难易程度。
预处理方法:
(1)数据清洗(Data Cleaning)
(1)处理缺失的值
(2)处理噪音数据
(2)数据整合(Data Integration)
(1)冗余与相关性分析
(3)数据缩减(Data Reduction)
(1)维度约减
(2)数度约减
(3)数据压缩
</