数据预处理:静态连续变量

数据预处理:静态连续变量

第一步,离散化连续变量使模型更加稳健。然后将数值特征二值化,进一步将数值特征进行分箱,包括均匀分箱和和分数位分箱两种方法。

第二部,缩放。不同尺度的特征之间难以比较,特别是在线性回归和逻辑回归等线性模型中,在基于欧氏距离的k-means聚类或者KNN模型中,就需要进行特征缩放,否则距离的测量是无用的,而对于任何使用梯度下降的算法,缩放也会加快收敛速度。

标准缩放

方法1:标准缩放,Z分数标准化,对异常值敏感,因为异常值会同时影响到均值和标准差。公式:
在这里插入图片描述

MinMaxScaler

方法2:MinMaxScaler,按数值范围缩放,对异常值敏感,假设缩放的特征数值范围是(a, b),公式:
在这里插入图片描述

RobustScaler

方法3:RobustScaler,抗异常值缩放,分位数缩放,使用对异常值稳健的统计(分位数)来缩放特征,对异常点的鲁棒性更强,假设缩放的特征分位数范围是(a, b),公式:
在这里插入图片描述
方法1,2,3都保持原来的分布,但正态性是许多统计模型的一个重要假设,可以使用幂次变换将原始分布转换为正态分布。

幂次变换

方法4:幂次变换(非线性变换)
Box-Cox变换:只适用于正数,并假设如下分布:
在这里插入图片描述
考虑所有的λ值,通过最大似然估计选择稳定方差和最小化偏度的最优值。
Yeo-Johnson变换:适用于正数和负数,并假设以下分布:
在这里插入图片描述
考虑所有的λ值,通过最大似然估计选择稳定方差和最小化偏度的最优值。

方法1,2,3,4都是按列进行操作的,每列表示所有样本的同一个特征属性的取值。

正则化

方法5:正则化,正则化在每一行都有效,它试图“缩放”每一个样本,使其具有单位范数,但是,由于正则化在每一行都起作用,它会扭曲特征之间的关系,因此不常见。但是正则化方法在文本分类和聚类上下文中非常有用。
假设X[i][j]表示样本i中特征j的值,
L1正则化公式:
在这里插入图片描述
L2正则化公式:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值