1 特征缩放
特征值缩放(
Feature Scaler
)也可以称为无量纲处理。
主要是对每个列,即同一特征维度的数值进行规范化处理。
应用背景:
- 不同特征(列)可能不属于同一量纲,即特征的规格不一样。 例如,假设特征向量由两个解释变量构成,第一个变量值范围 [0,1],第二个变量值范围[0,100]。
- 如果某一特征的方差数量级较大,可能会主导目标函数,导致其他特征的影响被忽略
常用方法:
- 标准化法
- 区间缩放法
特征值的缩放
‐‐
标准化法
- 标准化的前提是特征值服从正态分布。
- 标准化需要计算特征的均值和标准差,公式表达为:
特征值的缩放‐‐区间缩放法
- 区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特定范围。假设max和min为希望的调整后范围,则
- 由于希望的调整后范围一般为[0,1]。此时,公式变为:
2.特征值的归一化(规范化(Normalizer))
归一化是依照特征矩阵的行(样本)处理数据,其目的在于样本向量在点乘运算或计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。即使每个样本的范式(norm)等于 1.
- 规则为L1 norm的归一化公式如下:
- 规则为L2 norm的归一化公式如
3.定量特征的二值化
- 应用背景:对于某些定量特征,需要将定量信息转为区间划分。如 将考试成绩,转为“及格”或 “不及格”
- 方法:设定一个阈值,大于或者等于阈值的赋值为1,小于阈值的 赋值为0,公式表达如下:
4.缺失特征值的弥补计算
- 背景:数据获取时,由于某些原因,缺少某些数值,需要进行弥补。
- 常见的弥补策略:利用同一特征的均值进行弥补
举例:
counts = [[1, 0, 1],
[2, 0, 0],
[3, 0, 0],
[
NaN
, 0, 0]
则,
NaN
可以弥补为同列上其他数据的均值,即
(1+2+3)/3=2
。
5.特征选择
什么是特征选择?选择对于学习任务 (如分类问题) 有帮助的若干特征。
为什么要进行特征选择?
- 降维以提升模型的效率;
- 降低学习任务的 难度;
- 增加模型的可解释性。
特征选择的角度:
- 特征是否发散:对于不发散的特征,样本在其维度上差异性较小
- 特征与目标的相关性:应当优先选择与目标相关性高的特征
几种常见的特征选择方法:
- 方差选择法
- 皮尔逊相关系数法
- 基于森林的特征选择法
- 递归特征消除法
特征选择方法‐‐方差选择法
原理:方差非常小的特征维度对于样本的区分作用很小,可以剔除。
例如,假设数据集为布尔特征,想去掉那些超过80%情况下为1或者为 零的特征。由于布尔特征是Bernoulli(伯努利)随机变量, 其方差可以
计算为𝑉𝑎𝑟[x]=p*(1-p),因此阈值为0.8 * (1 ‐ 0.8)=0.16:
X = [[0, 0, 1],
[0, 1, 0],
[1, 0, 0],
[0, 1, 1],
[0, 1, 0],
[0, 1, 1]]
第一列的方差为(5/6)*(1/6)=0.14, 小于0.16。因此可以被过滤掉
特征选择方法‐‐基于森林的特征选择
其原理是某些分类器,自身提供了特征的重要性分值。因此可以直 接调用这些分类器,得到特征重要性分值,并排序。
本例中3个特征比较重要(informative),其他的分值较低。
特征选择方法
‐‐
递归特征消除法
( 以
sklearn
中的函数为例)递归特征消除(
recursive feature elimination,即
RFE
)的基本步骤:
- 首先在初始特征或者权重特征集合上训练。通过学习器返回 的 coef_ 属性 或者 feature_importances_ 属性来获得每个特征 的重要程度。
- 然后最小权重的特征被移除。
- 这个过程递归进行,直到希望的 特征数目满足为止。
6.特征降维
线性判别分析法(LDA)
降维本质上是从一个维度空间映射到另一个维度空间。
- 线性判别分析(Linear Discriminant Analysis, 简称LDA )是一种监督学习的降维技术,即数据集的每个样本有类别输出。
- LDA的基本思想:“投影后类内方差最小,类间方差最大”。即将数据在维度上进行投影,投影后希望同类数据的投影点尽可能接近,而不同类数据的类别中心之间的距离尽可能的大。
特征降维‐‐主成分分析法(PCA)
- 主成分分析(principal component analysis) 是一种无监督的降维方法。
- PCA的基本思想是采用数学变换,把给定的一组相关特征维度通过线性变换转成另一组不相关的维度(即principal components),这些新的维度按照方差依次递减的顺序排列:形成第一主成分、第二主成分等等。