训练集和测试集的标准化中的坑！！！

最新推荐文章于 2024-07-25 21:32:05 发布

西红柿vs鸡蛋

最新推荐文章于 2024-07-25 21:32:05 发布

阅读量5.7k

点赞数 18

分类专栏： Sklearn 文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_41584472/article/details/126039798

版权

Sklearn 专栏收录该内容

1 篇文章 1 订阅

订阅专栏

问题：数据标准化，应该在训练集和测试集划分前还是后？

答：数据标准化，应该在训练集和测试集划分后，分别对训练集和测试集进行数据标准化处理。不应该是数据标准化后，再进行划分。虽然从模型测试的结果看，可能出现的差距不大。

解释：当你手头已经有一份训练和测试数据。在真正的部署过程中，测试数据实际上就是那些源源不断刚刚出现的数据，你不知道它什么分布，也不知道它出现什么样的数值。所以你要用训练数据得到的均值和标准偏差，去转换它。这更加贴近部署的实际。测试集的归一化的均值和标准偏差应该来源于训练集

代码：

from sklearn import preprocessing
Standard = preprocessing.StandardScaler()
x_train = Standard.fit_transform(x_train)
x_test = Standard.transform(x_test)
注意事项：

1.必须现在train上使用fit_transform，再在test数据集上使用transform

2. x_train = preprocessing.StandardScaler().fit_transform(x_train)
x_test = preprocessing.StandardScaler().transform(x_test)

会报错：

This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

解决办法：需要Standard = preprocessing.StandardScaler()，定义一个对象后，再进行标准化处理。

西红柿vs鸡蛋

关注

18
点赞
踩
39

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录