python中的scaler_【笔记】scikit-learn中的Scaler(归一化)

本文介绍了在机器学习中如何使用scikit-learn的Scaler进行数据归一化,强调了不能直接用测试数据的均值和方差归一化,而应使用训练数据的统计信息。通过鸢尾花数据集展示了StandardScaler的使用步骤,并提醒在预测时测试数据也需要进行相同归一化处理,以保持准确性。
摘要由CSDN通过智能技术生成

scikit-learn中的数据归一化

在机器学习使用数据归一化的时候有一个重要的注意事项

我们对训练数据进行均值和方差的处理,得到mean_train以及std_train,但是在对测试数据进行归一化的时候,是不能直接用测试数据的均值和方差来进行归一化的,应该使用训练数据的均值和方差对测试数据进行均值方差归一化

1f7da2275385bb14d8ba6ceb1e55984a.png

为什么要这样做呢,我们训练这个模型是为了在真实的环境中去使用的,测试数据是模拟真实的环境,但是真实环境很有可能是没法得到所有的测试数据的均值和方差的,是很难得到这种统计数据的,另外,对数据的归一化也是算法的一部分,我们针对后面来的数据,应该也对其进行这样的处理

那么我们就必须要保存训练数据集得到的均值和方差

整体流程

554e5d7e098fa3b5d4a04bb7047fa739.png

实际操作(以鸢尾花为例)

x前十行的内容(并未进行归一化处理)

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值