数据挖掘之数据预处理

最新推荐文章于 2023-03-14 22:19:16 发布

Caaaaaan

最新推荐文章于 2023-03-14 22:19:16 发布

阅读量1.5k

点赞数 3

分类专栏： AIStudy 文章标签：数据挖掘数据分析分类

本文链接：https://blog.csdn.net/Hacker_ccc/article/details/125981483

版权

AIStudy 专栏收录该内容

19 篇文章 4 订阅

订阅专栏

数据质量

被广泛接受的数据质量的测量标准：

准确性
完整性(存在缺失值)
一致性
合时性(数据过时)
可信性(数据库来源)
解释性

数据预处理

数据预处理的目的是，提高数据质量

主要任务

数据清理
- 填写缺失值
- 平滑噪声数据
- 识别或删除离群
- 解决不一致问题
数据集成
- 整合多个数据库
- 多维数据集或文件
数据缩减
- 降维
- 降数据（Numerosity reduction）
- 数据压缩
数据转换和数据离散化
- 规范化
- 离散化

数据清洗

处理缺失值

忽略元组（即删除单一对象）

当类标号缺少时通常这么做（监督式机器学习中训练集缺乏类标签）
- 类标号指的是预测类型的训练集中，最后的预测结果缺失
当每个属性(即字段)缺少值比例比较大，效果比较差
- 这种情况下，会使得数据集规模变小太多
- 可以考虑删除单一属性
手动填写：工作量大
自动填写：使用属性的平均值填充（常用）

df_values=df_values.drop((miss_data[miss_data['total']>200]).index,axis=1)
df_values['pres'].fillna(df_values['pres'].mean(),inplace=True)
df_values['mass'].fillna(df_values['mass'].mean(),inplace=True)
df_values['plas'].fillna(df_values['plas'].mean(),inplace=True)

处理噪音数据

箱型图检测离群数据:删除离群点

当离群点很多时，也会导致数据集规模变小

在这里插入图片描述

处理不一致的数据

计算推理、替换
全局替换

数据集成

数据集成：将来自多个数据源的数据组合成一个连贯的数据源

在这里插入图片描述

模式集成

即当两个数据集的字段名不同，但是表达内容相同时，进行集成处理

在这里插入图片描述

实体识别问题

当其中一个数据集，名字用的是中文名，但是另一个数据集用的是英文名
但是他们表达的是同一个人（即同一个实体，因此在这种环境下，我们需要对实体识别，再集成）

在这里插入图片描述

数据冲突检测和解决

对于同一个真实世界的实体，来自不同源的属性值
可能的原因：表述方式的不同，尺度的不同(如公制与英制单位)

即如上图，描述高度这个实体，这个数值不一样（单位不一样）

冗余信息的处理

如：一个数据集中有3000m的成绩，另一个有5000m的成绩，则集成为跑步能力进行衡量

相同属性或对象可能有不同的文字在不同的数据库中
一个属性可能是“派生”的另一个表中的属性，例如跑步能力
通过相关性分析和协方差分析可以检测到冗余的属性
仔细集成来自多个数据源，可能有助于减少/避免冗余和不一致的地方，并提高读取速度和质量

在这里插入图片描述

协方差

协方差也用于表示两组数据的相关性

$协方差与相关系数的转化\\ r_{p,q}=\frac{Cov(p,q)}{\sigma_p\sigma_q}$

$协方差公式\\ Cov(p,q)=E((p-\overline{p})(q-\overline{q}))\\ =\frac{\sum_{i=1}^n(p_i-\overline{p})(q_i-\overline{q})}{n}\\ 可简化为：\\ Cov(A,B)=E(A*B)-\overline{A}\,\overline{B}$

其中n是元组的数目，而p和q是各自属性的具体值， $\sigma_p$ 和 $\sigma_q$ 是各自的标准偏差
正相关： $C o v (p, q) > 0$
负相关： $C o v (p, q) < 0$
独立性： $C o v p (p, q) = 0$
可具有某些对随机变量的协方差为0，但不是独立的
需要一些额外的假设，例如数据是否服从多元正态分布，做了协方差为0意味着独立

注意：

独立性 $\Rightarrow Cov(p,q)=0$
$Cov(p,q)=0\nRightarrow$ 独立性

数据规约

由于数据仓库可以存储TB的数据，因此在一个完整的数据集上运行时，复杂的数据分析可能需要一个很长的时间

降维

将高维数据，通过一些方法将高维数据变成低维数据

例如：面对一份成绩的数据集，有6个科目作为属性（语数英物化生），我们可以通过降维将属性变成——文科成绩和理科成绩两个维度

原因：
- 随着维数的增加，数据会变得越来越稀疏
  - 例如在病例的数据集中，随着维度的增加，会有大量的正常值涌出，使得我们需要关注的生病数据被淹没
- 子空间的可能的组合将成倍增长
  - 基于规则的分类方法，建立的规则将组合成倍增长
  - 维度越高，可能会导致特征的规则越复杂
- 类似神经网络的机器学习方法，主要需要**学习各个特征的权值参数。**特征越多，需要学习的参数就越多，则模型越复杂
  $\widehat{y}=sign(\omega_1x_1+\omega_2x_2+...+\omega_dx_d-t)\\$
- 机器学习训练集原则：模型越复杂，需要更多的训练集来学习模型参数，否则模型将欠拟合
- 因此，如果数据集维度很高，而训练集数目很少，在使用复杂的机器学习模型的时候，首选先降维
- 需要可视化
  - 当你维度越高时，可视化就越复杂

降维方法——PCA主成分分析

PCA主成分分析法核心思想
- 数据中很多属性之间可能存在这样或那样的相关性
- 能不能找到一个方法，将多个相关性的属性组合仅仅形成一个属性

在这里插入图片描述

主成分分析法主要内容
- 设法将原来众多具有一定相关性的属性，重新组合成一组相互无关的综合属性来替代原来属性
- 通常数学上的处理就是将原来p个属性作线性组合，作为新的综合属性——即通过线性的加权组合

$定义：记x_1,x_2,...,x_p为原变量指标，z_1,z_2,...,z_m(m\leq p)\\ \begin{cases} z_1=l_{11}x_1+l_{12}x_2+...+l_{1p}x_p\\ z_2=l_{21}x_1+l_{22}x_2+...+l_{2p}x_p\\ \vdots\\ z_m=l_{m1}x_1+l_{m2}x_2+...+l_{mp}x_p\\ \end{cases}$