sklearn中的数据预处理和特征工程

 

背景:由于特征之间的量纲不同,使得不同的指标之间没有可比性,不处于同一数量级的指标,无法进行分析。

解决方案:将所有的数据映射到同一个尺度中。

重要性:处于区间范围差异较大的特征,当采用随即梯度下降法学习时,学习速率相比同一区间更低。

适用于:通过梯度下降法求解的模型,如:线性回归,逻辑回归,SVM,神经网络等。

不适用于:树形结构

一、最值归一化 normalization

即:把所有数据映射到0-1之间

适用于:分布有明显边界的情况,如:学生分数/图像像素

缺点:受outlier影响较大,如:收入

python实现:

import numpy as np
x = np.random.randint(0,100,size=100)

(x - np.min(x)) / (np.max(x) -  np.min(x))

X = np.random.randint(0,100,(50,2))

X = np.arra
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值