数据预处理--特征归一化

为什么需要对数值类型的特征归一化?

对数据进行特征归一化(Normalization)处理,可以使得数据的各个特征处于同一数值量级,而不会导致模型学习出来的结果倾向于数值差别比较大的那些特征。


常用的特征归一化方法:

  1. 线性函数归一化(Min-Max Scaling):对原始数据进行线性变换,是结果映射到[0,1]范围,实现对原始数据的等比缩放。归一化公式为:x_norm=(x-x_min)/(x_max-x_min)

  2. 零均值归一化(Z-Score Normalization):将原始数据映射到 均值为0、标准差为1的分布上。我们假设原始特征的均值为μ、标准差为σ,则归一化公式为:x_norm = (x-μ)/σ

通常在实际应用中,通过梯度下降求解的模型是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络模型等。然而并不适用于决策树模型,因为决策树在划分子树时依据的是信息增益(或基尼系数等),而信息增益与特征是否经过归一化是无关的,因为归一化并不会改变样本在特征上的信息增益。

Reference:《百面机器学习》

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值