特征缩放对哪些机器学习算法结果有影响

在对数据分析建模时,常常需要先进行预处理,特征缩放是一种消除变量尺度差异的一种方法。以下对最近的学习做一点记录,指出的算法覆盖并不全面。

为什么需要特征缩放:

举个例子:根据身高、体重来选择衣服的尺寸,假如现在有如下3个人的数据:

序号身高体重尺寸
11.7068L
21.5257S
31.7560

问:第三人的衣服应该选择什么尺寸? 凭人为经验来看应该选择L比S更合适。 但,如果让计算机来选择: 1、1.7 + 68 = 69.7 2、1.52 + 57 = 58.52 3、1.75 + 60 = 61.75 得出的结论是3和2更接近。 由于体重和身高是两个不平衡的特征,所以直接加和或者空间距离等都可能使结果产生较大偏差。

需要特征缩放的算法有:

计算距离时,其实在利用一个维度与另一个维度进行交换,会受到特征不平衡影响

  • k-means 计算佯本与中心点的距离
  • SVM 支持向量与分离面距离最大化

特征缩放无影响的算法有:

  • 线性回归 每个特征有一个系数,与其他特征不存在交换
  • 决策树 由一系列水平线和垂直线组成,对特征单独处理,两个特征之间不存在交换

特征缩放方法有:

  • 归一化 $x = \frac{x-min}{max-min} $
  • 标准化 $ x = \frac{x-mean}{std}$

转载于:https://my.oschina.net/u/3851199/blog/1944830

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值