特征处理

1 特征缩放

特征值缩放( Feature Scaler )也可以称为无量纲处理。 主要是对每个列,即同一特征维度的数值进行规范化处理。
应用背景:
  • 不同特征(列)可能不属于同一量纲,即特征的规格不一样。 例如,假设特征向量由两个解释变量构成,第一个变量值范围 [0,1],第二个变量值范围[0,100]
  • 如果某一特征的方差数量级较大,可能会主导目标函数,导致其他特征的影响被忽略
常用方法:
  • 标准化法
  • 区间缩放法
特征值的缩放 ‐‐ 标准化法
  • 标准化的前提是特征值服从正态分布。
  • 标准化需要计算特征的均值和标准差,公式表达为:
X_scale=\frac{X(axis=0)-X.mean(axis=0)}{X.std(axis=0)}
特征值的缩放‐‐区间缩放法
  • 区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特定范围。假设maxmin为希望的调整后范围,则
X_scaled=\frac{X(axis=0)-X.mean(axis=0)}{X.max(axis=0)-X.min(axis=0)}\ast \left ( max -min\right ) +min
  • 由于希望的调整后范围一般为[0,1]。此时,公式变为:
X_scaled=\frac{X(axis=0)-X.mean(axis=0)}{X.max(axis=0)-X.min(axis=0)}
 

2.特征值的归一化(规范化(Normalizer))

 
归一化是依照特征矩阵的行(样本)处理数据,其目的在于样本向量在点乘运算或计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。即使每个样本的范式(norm)等于 1.
 
  • 规则为L1 norm的归一化公式如下:
 
{x}'=\frac{x}{\sum_{j=0}^{n-1}\left | x_{j} \right |}
  • 规则为L2 norm的归一化公式如
 
{x}'=\frac{x}{\sum_{j=0}^{n-1}x^{2}}
 

3.定量特征的二值化

  • 应用背景:对于某些定量特征,需要将定量信息转为区间划分。如 将考试成绩,转为“及格”或 “不及格”
  • 方法设定一个阈值,大于或者等于阈值的赋值为1,小于阈值的 赋值为0,公式表达如下:

{x}'=\left\{\begin{matrix} 1,x\geqslant threshold\\ 0,x<threshold\end{matrix}\right.

4.缺失特征值的弥补计算

  • 背景:数据获取时,由于某些原因,缺少某些数值,需要进行弥补。
  • 常见的弥补策略:利用同一特征的均值进行弥补
举例:
counts = [[1, 0, 1],
                [2, 0, 0],
                [3, 0, 0],
                [ NaN , 0, 0]
则, NaN 可以弥补为同列上其他数据的均值,即 (1+2+3)/3=2
 

5.特征选择

什么是特征选择?选择对于学习任务 (如分类问题) 有帮助的若干特征。

为什么要进行特征选择?

  1. 降维以提升模型的效率;
  2. 降低学习任务的 难度;
  3. 增加模型的可解释性。

特征选择的角度

  1. 特征是否发散:对于不发散的特征,样本在其维度上差异性较小
  2. 特征与目标的相关性:应当优先选择与目标相关性高的特征

几种常见的特征选择方法

  • 方差选择法
  • 皮尔逊相关系数法
  • 基于森林的特征选择法
  • 递归特征消除法

特征选择方法‐‐方差选择法

原理:方差非常小的特征维度对于样本的区分作用很小,可以剔除。
例如,假设数据集为布尔特征,想去掉那些超过80%情况下为1或者为 零的特征。由于布尔特征是Bernoulli(伯努利)随机变量, 其方差可以
计算为𝑉𝑎𝑟[x]=p*(1-p),因此阈值为0.8 * (1 ‐ 0.8)=0.16:
X = [[0, 0, 1],
        [0, 1, 0], 
        [1, 0, 0], 
        [0, 1, 1], 
        [0, 1, 0], 
        [0, 1, 1]]
第一列的方差为(5/6)*(1/6)=0.14,  小于0.16。因此可以被过滤掉
 
特征选择方法‐‐基于森林的特征选择
 
其原理是某些分类器,自身提供了特征的重要性分值。因此可以直 接调用这些分类器,得到特征重要性分值,并排序。
本例中3个特征比较重要(informative),其他的分值较低。
 

特征选择方法 ‐‐ 递归特征消除法
 
( 以 sklearn 中的函数为例)递归特征消除( recursive feature elimination,即 RFE )的基本步骤:
  1. 首先在初始特征或者权重特征集合上训练。通过学习器返回 的 coef_ 属性 或者 feature_importances_ 属性来获得每个特征 的重要程度。
  2. 然后最小权重的特征被移除。
  3. 这个过程递归进行,直到希望的 特征数目满足为止。

6.特征降维

线性判别分析法(LDA)
降维本质上是从一个维度空间映射到另一个维度空间。
  • 线性判别分析(Linear Discriminant Analysis, 简称LDA )是一种监督学习的降维技术,即数据集的每个样本有类别输出。
  • LDA的基本思想:“投影后类内方差最小,类间方差最大”。即将数据在维度上进行投影,投影后希望同类数据的投影点尽可能接近,而不同类数据的类别中心之间的距离尽可能的大。

特征降维‐‐主成分分析法(PCA)  

  • 主成分分析(principal component analysis) 是一种无监督的降维方法。
  • PCA的基本思想是采用数学变换,把给定的一组相关特征维度通过线性变换转成另一组不相关的维度(即principal components),这些新的维度按照方差依次递减的顺序排列:形成第一主成分、第二主成分等等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值