Feature Engineering(特征工程)
希望目标值 y y y和特征 x = [ x 1 , x 2 , . . . , x p ] x=[x_{1},x_{2},...,x_{p}] x=[x1,x2,...,xp]( p p p表示特征数量)之间存在某种关系: y ≈ y ^ = θ 1 f 1 ( x 1 ) + θ 2 f 2 ( x 2 ) + . . . + θ p f p ( x p ) y\approx \hat{y}=\theta_{1}f_{1}(x_{1})+\theta_{2}f_{2}(x_{2})+...+\theta_{p}f_{p}(x_{p}) y≈y^=θ1f1(x1)+θ2f2(x2)+...+θpfp(xp)。
则 f i ( x i ) f_{i}(x_{i}) fi(xi)称为特征映射函数或者基底函数,寻找合适的特征映射函数(基底函数)称为Feature Engineering(特征工程),而寻找合适的系数 θ i \theta_{i} θi就是最小二乘问题,具体实现过程见之前的笔记。
下面对常用的特征工程方法进行汇总,主要包括三类:特征升维、降维和维度不变三种情况。顾名思义,就是增加、减少和保持原数据的特征数量(original features)不变。
一、维度不变的特征工程方法
- Standardize Feature(标准化)
标准化方法有很多,最常用的是最大最小值标准化和z-score标准化,以后者为例,将源数据转化成标准正态分布数据,标准化公式为 f i ( x i ) = x i − X ‾ S f_{i}(x_{i})=\frac{x_{i}-\overline{X}}{S} fi(xi)