郑少强

我是个菜鸟!!!

数据预处理笔记

1.数据质量的定义:准确性、完整性、一致性、时效性、可信性和可解释性。
2.数据清理:填补缺失的值,光滑噪声同时识别离群点,纠正数据的不一致性。
填补缺失值的方法:
1)忽略元祖(缺少类标号的时候通常可以这样做);
2)人工填写缺失值(费时费力);
3)使用一个全局常量填充缺失值(方法简单但可靠性差);
4)使用属性的中心度量填充缺失值(使用均值或者中位数填充);
5)使用与给定元祖属同一类的所有样本的属性均值或中位数(对其进行分类之后进行填充);
6)使用最可能的值填充缺失值(采用回归、贝叶斯形式化方法等。最流行的方法)。
3.数据集成:将来自多个数据源的数据整合成一致的数据存储,来减少数据的冗余和不一致问题。
4.数据规约:数据规约是得到数据的规约表示,而使得信息内容的损失最小化。数据规约方法有维规约、数量规约和数据压缩。
1)维规约:减少所考虑的随机变量或维的个数,方法有小波变化、主成分分析、属性子集选择和属性创建。
2)数量规约:使用参数或非参数模型,得到原数据的较小的表示。参数模型只存放模型参数,而非实际数据。例如回归和对数线性模型。非参数方法包括直方图、聚类、抽样和数据立方体聚集。
3)数据压缩:是使用变换,得到原数据的归约或“压缩”表示。如果原数据可以由压缩后的数据重构,而不损失任何信息,则数据压缩是无损的;否则,它是有损的。
5.数据变换:将数据变换成适于挖掘的形式。
6.数据离散化:把相应的数据的值映射到区间或概念标号变化数值数据。这种方法可以自动的产生数据的概念分层,而概念分层允许在多个粒度层进行挖掘。
离散化技术包括分箱、直方图分析、聚类分析、决策树分析和相关分析。

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_31878083/article/details/52382841
个人分类: 数据挖掘
想对作者说点什么? 我来说一句

数据挖掘.pdf

2012年08月29日 19.58MB 下载

没有更多推荐了,返回首页

不良信息举报

数据预处理笔记

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭