【数据挖掘】（三）特征工程

最新推荐文章于 2024-07-02 21:12:53 发布

ocean_R

最新推荐文章于 2024-07-02 21:12:53 发布

阅读量1.9k

点赞数 2

文章标签：数据挖掘

本文链接：https://blog.csdn.net/ocean_R/article/details/105167580

版权

数据和特征决定了机器学习的上限，而模型和算法只是去尽可能地逼近这个上限。由此可见，特征工程在机器学习中占有相当重要的地位。

特征工程：找到与问题有关的任何信息并把它们转换成特征矩阵的数值

在这里插入图片描述

在数据预处理时，是否对异常值进行剔除，需要视具体情况而定，因为有些异常值中也有可能蕴含有用的信息。

异常值处理方法	方法描述
删除含有异常值的记录	直接将整条记录删除
视为缺失值	将异常值视为缺失值，利用对缺失值处理的方法处理异常值
平均值修正	可用前后两个观测值的平均值修正该异常值
不处理	直接在具有异常值的数据集上进行挖掘建模

在处理异常值时，应该先分析异常值出现的可能原因，再判断异常值是否应该舍弃，如果是正确的数据，可以直接在具有异常值的数据集上进行挖掘建模。

也称为数据规范化，是数据挖掘一项基础工作。由于不同评价指标往往具有不同量纲，数值间的差别可能很大，不进行处理可能会影响到数据分析的结果。为此，将其按照比例进行缩放，使之落入一个特定的区域，以便于综合分析。

也称为离差标准化，是对原始数据进行线性变化，将数值映射到 $[0, 1]$ 之间。转换公式：
$x^*=\frac{x-min}{max-min}$
其中： $m a x$ 为样本数据的最大值， $m i n$ 为样本的最小值。 $m a x - m i n$ 为极差。

缺点：若数值集中某个数值很大，则规范化后会接近于0，并且将会过度集中。而一旦遇到超过 $[m i n, m a x]$ 范围时的数据，将会出现报错，需重新确定 $m i n$ 和 $m a x$ 。

也称为零-均值规范化，经过处理的数据均值为 $0$ ,标准差为 $1$ 。转换公式：
$x^* = \frac{x-\bar{x}}{\sigma}$
其中： $\bar{x}$ 为原始数据的均值， $\sigma$ 为原始数据的标准化。是目前最为常用的标准化方法

也称为连续数据离散化，即将连续属性变换成分类属性。对于某些数据挖掘算法如（ID3、Apriori算法等），要求数据是分类属性形式。

连续数据的离散化就是在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。所以，离散化涉及两个子任务：确定分类数以及如何将连续属性值映射到这些分类值。

常用的数据分桶方法有：等宽分桶、等频分桶、基于聚类的分桶……

将属性的值域分成具有相同宽度的区间，区间的个数可以由数据本身决定也可由用户指定，类似于制作频率分布表。

缺点：1.需要人为规划分布区间；2.对于离群点比较敏感，倾向于不均匀地把属性值分布到各个区间，这样的结果会严重损坏建立的决策模型。

将相同数量的记录放进每个区间。

优点：避免了等宽分桶的缺点；

缺点：1.需要人为规划分布区间；2.可能将相同的数据值分到不同的区间以满足每个区间中固定的数据个数

一维聚类的方法包括两个步骤，首先将连续属性的值用聚类算法（如K-Means）进行聚类，然后将聚类得到的簇进行处理，合并到一个簇的连续属性值并做同一标记。

针对缺失值的处理方法有三类：删除记录、不处理、数据插补和数据分箱。

如果有小部分的样例有缺失，直接删除该样例的方法显然是最有效的。

缺点：会造成数据的浪费。

部分模型允许在含有缺失的数据集上建立模型。

插补方法	方法描述
固定值	用固定的常量进行代替
均值/中位数/众数	根据数据属性类型，对其直接用对应数值填补
最近邻插补	在记录中找到与缺失样本最接近的样本的该属性值插补
回归方法	根据已有数据和其他有关的其他变量（因变量）的数据建立拟合模型估计缺失值
插值法	利用几个已知点建立合适的插值函数,未知值由对应点求函数值填补