数据预处理:静态连续变量
第一步,离散化连续变量使模型更加稳健。然后将数值特征二值化,进一步将数值特征进行分箱,包括均匀分箱和和分数位分箱两种方法。
第二部,缩放。不同尺度的特征之间难以比较,特别是在线性回归和逻辑回归等线性模型中,在基于欧氏距离的k-means聚类或者KNN模型中,就需要进行特征缩放,否则距离的测量是无用的,而对于任何使用梯度下降的算法,缩放也会加快收敛速度。
标准缩放
方法1:标准缩放,Z分数标准化,对异常值敏感,因为异常值会同时影响到均值和标准差。公式:
MinMaxScaler
方法2:MinMaxScaler,按数值范围缩放,对异常值敏感,假设缩放的特征数值范围是(a, b),公式:
RobustScaler
方法3:RobustScaler,抗异常值缩放,分位数缩放,使用对异常值稳健的统计(分位数)来缩放特征,对异常点的鲁棒性更强,假设缩放的特征分位数范围是(a, b),公式:
方法1,2,3都保持原来的分布,但正态性是许多统计模型的一个重要假设,可以使用幂次变换将原始分布转换为正态分布。
幂次变换
方法4:幂次变换(非线性变换)
Box-Cox变换:只适用于正数,并假设如下分布:
考虑所有的λ值,通过最大似然估计选择稳定方差和最小化偏度的最优值。
Yeo-Johnson变换:适用于正数和负数,并假设以下分布:
考虑所有的λ值,通过最大似然估计选择稳定方差和最小化偏度的最优值。
方法1,2,3,4都是按列进行操作的,每列表示所有样本的同一个特征属性的取值。
正则化
方法5:正则化,正则化在每一行都有效,它试图“缩放”每一个样本,使其具有单位范数,但是,由于正则化在每一行都起作用,它会扭曲特征之间的关系,因此不常见。但是正则化方法在文本分类和聚类上下文中非常有用。
假设X[i][j]表示样本i中特征j的值,
L1正则化公式:
L2正则化公式: