数据挖掘读书笔记--第三章：数据预处理

最新推荐文章于 2021-08-26 20:45:41 发布

SanFanCSgo

最新推荐文章于 2021-08-26 20:45:41 发布

阅读量2.5k

点赞数 3

分类专栏：数据挖掘概念与技术读书笔记文章标签： Data Mining Data preprocessing PCA Regression Logistic regression

本文链接：https://blog.csdn.net/weixin_40170902/article/details/79689757

版权

散记知识点

——“低质量的数据将导致低质量的挖掘结果。”

数据清理可以用来清除数据中的噪声，纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据储存，如数据仓库。数据归约可以通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变换（如，规范化）可以用来把数据压缩到较小的区间。

1. 数据预处理：概述

1.1 数据质量
数据质量涉及到许多因素，包括准确度、完整性、一致性、时效性、可信性和可解释性。

1.2 数据预处理的主要任务
数据预处理的主要步骤，即

数据清理：填充缺失值、光滑噪声并识别离群点、纠正数据中的不一致。
数据集成：合并来自多个数据储存的数据，减少结果数据集的冗余和不一致。
数据归约：用较小的数据集替换原数据集，保持原始数据的完整性。
数据变换：变换数据使得其适合于挖掘的形式。

2. 数据清理

2.1 缺失值

对于处理数据中的缺失值有以下几个方法：
(1) 忽略元组：适用于分类的挖掘任务缺少类标号时，当元组有多个属性缺少值，而且每个属性缺失值的百分比变化很小。可以采用忽略元组的方法。注意该元组剩余的属性值也不能被使用。
(2) 人工填写缺失值：方法费时，且不适用于大规模数据集。
(3) 使用一个全局常量填充缺失值：方法简单，但不可靠。
(4) 使用属性的中心度量(均值或中位数)填充缺失值：对于正常对称的数据分布，使用均值，对于倾斜数据则使用中位数。
(5) 使用与给定元组同一类的所有样本的属性均值或中位数
(6) 使用最可能的值填充缺失值：可以采用回归，贝叶斯法以及决策树等推理出缺失值。该方法最为常用，原因在于它使用已有数据的大部分信息来预测缺失值。

2.2 噪声数据

噪声定义：被测量的变量的随机误差或方差。

去除噪声，光滑数据方法：
(1) 分箱：通过考察数据的“近邻”(即周围的值)来光滑有序数据的值。这些有序的值被分布到一些桶或箱中，进行局部光滑。可以采用箱均值光滑、箱中位数光滑以及箱边界光滑。
(2) 回归：用一个函数拟合来光滑数据。线性回归，找出拟合两个属性的最佳直线，使得一个属性可以用来预测另一个。多元线性回归涉及的属性多于两个，数据拟合到一个多维平面上。
(3) 离群点分析：通过聚类来检测离群点，聚类将类似的值组织成群或“簇”，那些落在簇集合之外的值被视为离群点。

3. 数据集成

3.1 冗余和相关分析
如果一个属性能由另一个或另一组属性“导出”，则这个属性可能是冗余的。有些冗余可以通过相关分析检测到，给定两个属性可以根据可用的数据，度量一个属性能在多大程度上蕴含另一个。

(1)标称属性的 $\chi ^2$ (卡方)相关检验

假设属性A有c个不同值 $a_{1},a_{2},...,a_{c}$ ，属性B有r个不同值 $b_{1},b_{2},...,b_{r}$ 。A和B的元素构成一个矩阵表 $(c \times r)$ ，令 $(A_{i}, B_{i})$ 表示属性A取值 $a_{i}$ ，属性B取值 $b_{j}$ 的联合事件，即 $(A=a_{i}, B=b_{j})$ 。则 $\chi ^ 2$ 值(Pearson $\chi ^2$ 统计量)可以用下式计算：

χ 2 = \sum i = 1 c \sum j = 1 r ( o i j - e i j ) 2 e i j

$\chi ^ 2=\sum_{i=1}^c \sum_{j=1}^r \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$
其中，

oij o i j $o_{ij}$ 是联合事件

(Ai,Bj) ( A i , B j ) $(A_{i}, B_{j})$ 的观测频度(即频数)，而

eij e i j $e_{ij}$ 是

(Ai,Bj) ( A i , B j ) $(A_{i}, B_{j})$ 的期望频度，可以用下式计算：

e i j = c o u n t ( A = a i ) \times c o u n t ( B = b j ) n

$e_{ij}=\frac{count(A=a_{i}) \times count(B=b_{j})}{n}$
其中。n是数据元组的个数，

count(A=ai) c o u n t ( A = a i ) $count(A=a_{i})$ 是A上具有值

ai a i $a_{i}$ 的元组个数，而

count(B=bj) c o u n t ( B = b j ) $count(B=b_{j})$ 是B上具有值

bj b j $b_{j}$ 的元组个数。
卡方统计检验假设A和B独立的。检验基于显著性水平，具有自由度

(r−1)×(c−1) ( r − 1 ) × ( c − 1 ) $(r-1) \times (c-1)$ ，如果可以拒绝该假设，则可以说A和B相互独立的假设不正确，即A和B是统计相关的。
下图为一实例：
这里写图片描述

(2) 数值数据的相关系数
对于数值属性的数据，可以直接计算相关系数来度量两个属性之间的相关性，计算A和B的相关系数(Pearson积矩系数)如下：

r A, B = \sum n i = 1 ( a i - A ¯ ) ( b i - B ¯ ) n σ A σ B = \sum n i = 1 ( a i b j ) - n A ¯ B ¯ n σ A σ B

$r_{A,B}=\frac{\sum_{i=1}^n (a_{i}-\bar{A})(b_{i}-\bar{B})}{n\sigma_{A} \sigma_{B}}=\frac{\sum_{i=1}^n (a_{i}b_{j})-n\bar{A} \bar{B}}{n\sigma_{A} \sigma_{B}}$
其中，n是元组的个数，

ai a i $a_{i}$ 和

bi b i $b_{i}$ 分别是元组

i i $i$ 在A和B上的值；

\bar{A}

$\bar{A}$ 和

B¯ B ¯ $\bar{B}$ 分别是A和B的均值；

σA σ A $\sigma_{A}$ 和

σB σ B $\sigma_{B}$ 分别是A和B的标准差。

∑(aibi)

最低0.47元/天解锁文章

SanFanCSgo

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
数据挖掘读书笔记--第三章：数据预处理

散记知识点——“低质量的数据将导致低质量的挖掘结果。”数据清理可以用来清除数据中的噪声，纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据储存，如数据仓库。数据归约可以通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变换（如，规范化）可以用来把数据压缩到较小的区间。1. 数据预处理：概述1.1 数据质量数据质量涉及到许多因素，包括准确度、完整性、一致性、...
复制链接

扫一扫