特征处理

最新推荐文章于 2023-10-25 14:09:05 发布

东汄

最新推荐文章于 2023-10-25 14:09:05 发布

阅读量609

点赞数

分类专栏：深度学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_38054219/article/details/109701095

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 特征缩放

特征值缩放（ Feature Scaler ）也可以称为无量纲处理。主要是对每个列，即同一特征维度的数值进行规范化处理。

应用背景：

不同特征（列）可能不属于同一量纲，即特征的规格不一样。例如，假设特征向量由两个解释变量构成，第一个变量值范围 [0,1]，第二个变量值范围[0,100]。
如果某一特征的方差数量级较大，可能会主导目标函数，导致其他特征的影响被忽略

常用方法：

标准化法
区间缩放法

特征值的缩放 ‐‐ 标准化法

标准化的前提是特征值服从正态分布。
标准化需要计算特征的均值和标准差，公式表达为：

$X_scale=\frac{X(axis=0)-X.mean(axis=0)}{X.std(axis=0)}$

特征值的缩放‐‐区间缩放法

区间缩放法利用了边界值信息，将特征的取值区间缩放到某个特定范围。假设max和min为希望的调整后范围，则

$X_scaled=\frac{X(axis=0)-X.mean(axis=0)}{X.max(axis=0)-X.min(axis=0)}\ast \left ( max -min\right ) +min$

由于希望的调整后范围一般为[0,1]。此时，公式变为:

$X_scaled=\frac{X(axis=0)-X.mean(axis=0)}{X.max(axis=0)-X.min(axis=0)}$

2.特征值的归一化(规范化（Normalizer）)

归一化是依照特征矩阵的行（样本）处理数据，其目的在于样本向量在点乘运算或计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。即使每个样本的范式（norm）等于 1.

规则为L1 norm的归一化公式如下：

${x}'=\frac{x}{\sum_{j=0}^{n-1}\left | x_{j} \right |}$

规则为L2 norm的归一化公式如

${x}'=\frac{x}{\sum_{j=0}^{n-1}x^{2}}$

3.定量特征的二值化

应用背景：对于某些定量特征，需要将定量信息转为区间划分。如将考试成绩，转为“及格”或 “不及格”
方法：设定一个阈值，大于或者等于阈值的赋值为1，小于阈值的赋值为0，公式表达如下：

${x}'=\left\{\begin{matrix} 1,x\geqslant threshold\\ 0,x<threshold\end{matrix}\right.$

4.缺失特征值的弥补计算

背景：数据获取时，由于某些原因，缺少某些数值，需要进行弥补。
常见的弥补策略：利用同一特征的均值进行弥补

举例：

counts = [[1, 0, 1],

[2, 0, 0],

[3, 0, 0],

[ NaN , 0, 0]

则， NaN 可以弥补为同列上其他数据的均值，即 (1+2+3)/3=2 。

5.特征选择

什么是特征选择？选择对于学习任务 (如分类问题) 有帮助的若干特征。

为什么要进行特征选择？

降维以提升模型的效率；
降低学习任务的难度；
增加模型的可解释性。

特征选择的角度：

特征是否发散：对于不发散的特征，样本在其维度上差异性较小
特征与目标的相关性：应当优先选择与目标相关性高的特征

几种常见的特征选择方法：

方差选择法
皮尔逊相关系数法
基于森林的特征选择法
递归特征消除法

特征选择方法‐‐方差选择法

原理：方差非常小的特征维度对于样本的区分作用很小，可以剔除。

例如，假设数据集为布尔特征，想去掉那些超过80%情况下为1或者为零的特征。由于布尔特征是Bernoulli（伯努利）随机变量, 其方差可以

计算为𝑉𝑎𝑟[x]=p*(1-p)，因此阈值为0.8 * (1 ‐ 0.8)=0.16:

X = [[0, 0, 1],

[0, 1, 0],

[1, 0, 0],

[0, 1, 1],

[0, 1, 0],

[0, 1, 1]]

第一列的方差为(5/6)*(1/6)=0.14, 小于0.16。因此可以被过滤掉

特征选择方法‐‐基于森林的特征选择

其原理是某些分类器，自身提供了特征的重要性分值。因此可以直接调用这些分类器，得到特征重要性分值，并排序。

本例中3个特征比较重要（informative），其他的分值较低。

特征选择方法 ‐‐ 递归特征消除法

（以 sklearn 中的函数为例）递归特征消除（ recursive feature elimination，即 RFE ）的基本步骤：

首先在初始特征或者权重特征集合上训练。通过学习器返回的 coef_ 属性或者 feature_importances_ 属性来获得每个特征的重要程度。
然后最小权重的特征被移除。
这个过程递归进行，直到希望的特征数目满足为止。

6.特征降维

线性判别分析法（LDA）

降维本质上是从一个维度空间映射到另一个维度空间。

线性判别分析（Linear Discriminant Analysis, 简称LDA ）是一种监督学习的降维技术，即数据集的每个样本有类别输出。
LDA的基本思想：“投影后类内方差最小，类间方差最大”。即将数据在维度上进行投影，投影后希望同类数据的投影点尽可能接近，而不同类数据的类别中心之间的距离尽可能的大。

特征降维‐‐主成分分析法（PCA）

主成分分析（principal component analysis）是一种无监督的降维方法。
PCA的基本思想是采用数学变换，把给定的一组相关特征维度通过线性变换转成另一组不相关的维度（即principal components），这些新的维度按照方差依次递减的顺序排列：形成第一主成分、第二主成分等等。

东汄

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征处理

1特征缩放特征值缩放（FeatureScaler）也可以称为无量纲处理。主要是对每个列，即同一特征维度的数值进行规范化处理。应用背景：不同特征（列）可能不属于同一量纲，即特征的规格不一样。例如，假设特征向量由两个解释变量构成，第一个变量值范围 [0,1]，第二个变量值范围[0,100]。如果某一特征的方差数量级较大，可能会主导目标函数，导致其他特征的影响被忽略常用方法：标准化法区间缩放法特征值的缩放‐‐标准化法标准化的前提是特征值服从正态分布。标准化需要..
复制链接

扫一扫