如何进行特征归一化

为了使不同的特征之间具有可比性,我们往往需要对特征进行归一化处理。比如现在对大管的外貌特征进行分析,大管身高1.70米,体重60kg,那么这样分析出的结果显然会偏向较大的体重特征。想要更为准确的结果,就需要对大管的身高体重进行归一化(Normalization)处理。

对数值类型的特征做归一化可以将特征统一到一个大致相同的数值区间内。最常用的方法有以下两种:

(1)线性函数归一化(Min-Max Scaling)

这种方法对原始的数据进行变化,使其映射到[0,1]的范围,实现对原始数据的等比缩放。

 

x为原始数据,xmin为最小值,xmax为最大值,xnormal为输出结果。

(2)零均值归一化(Z-Score Normalization)

这种方法会将数据映射到均值为0,标准差为1的分布上。假设原始特征的均值为μ,标准差为σ,那么归一化的公式为:

归一化除了使特征在同一个量纲里方便比较,还有什么重要性呢?在学习速率相同的情况下,归一化会使得特征的更新速度变化一致,更容易的通过梯度下降法找到最优解(这也是基于特征处于一个相同的量纲中)。如下图所示

在实际应用中,线性回归、逻辑回归、支持向量机、神经网络通常需要归一化,但是对于决策树模型却不适合用。

 

欢迎小伙伴留言,关注,进行交流。

更多内容请扫描下方二维码关注小编公众号:程序员大管

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值