数据标准化常见问题：对整个数据集数据标准化后再划分训练集、测试集和先对训练级标准化再将规则用于测试集有什么区别（Python实现）

最新推荐文章于 2024-06-21 16:48:16 发布

mx丶姜小辉

最新推荐文章于 2024-06-21 16:48:16 发布

阅读量2w

点赞数 31

分类专栏： Python 文章标签：数据标准化 Python

本文链接：https://blog.csdn.net/qq_40304090/article/details/90597892

版权

Python 专栏收录该内容

28 篇文章 4 订阅

订阅专栏

在数据分析与挖掘、算法建模的都会用到数据标准化。数据的标准化(normalization)是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

但是经常会遇到一个问题：

方式一：先对整个数据集数据标准化后再划分训练集、测试集

方式二：先对训练级标准化再将规则用于测试集

为什么这么做？这两种方式有什么区别？

如果是做案例类学习研究，由于数据量是固定的，其实这两种方式不会有太大的区别；但是在实际的业务应用中，第二种方式还是会比第一种方式更可靠，因为会有实时的数据集进来应用模型，而这时的数据处理规则仍然采用建模前的规则会有一定的容错率。

可以思考一下：

第一种方式，先对整个数据集进行标准化之后，假设标准化规则的最大值为100，最小值为1，使数据的最大值为1，最小值为0.05，再将其划分为训练集和测试集，此时训练集或者测试集是同一个规则。

第二种方式：先对训练级标准化再将规则用于测试集，本身训练集和测试集的极值（最大值，最小值）会不同，例如训练集最大值为100，标准化之后为1，而测试集最大值为200，按训练集的标准化规则为1.5，而如果用测试集的标准化规则就会为1。但此时的模型会将1看做100，而不是200，会造成误差，并且有实时数据来应用模型，采用训练集的标准化规则，更适合于模型。

from sklearn.model_selection import train_test_split
data_tr1,data_te1,target_tr,target_te = train_test_split(media_rfm.iloc[:,3:9],media_rfm['class'],test_size=0.2,random_state=10)
from sklearn.preprocessing import StandardScaler
stdScale = StandardScaler().fit(data_tr1) ## 生成规则
data_tr = stdScale.transform(data_tr1) ## 将规则应用于训练集
data_te = stdScale.transform(data_te1) ## 将规则应用于测试集

文章未经博主同意，禁止转载！