简记：机器学习中关于训练集和测试集的标准化问题

炒茄子

已于 2024-04-29 16:40:50 修改

阅读量776

点赞数 5

分类专栏： Free 文章标签：机器学习人工智能深度学习 python

于 2024-04-29 16:39:30 首次发布

炒茄子

本文链接：https://blog.csdn.net/m0_63001937/article/details/138317175

版权

Free 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

01 错误处理

对于标准化统一量纲问题，我之前一直是这么处理，我也从来没有意识到问题，这里记录一下：

错误处理：在未进行数据集划分之前，对所有特征项(X/因子项)进行标准化例如MinMaxScaler\Normalizer等方法，然后再进行数据集划分；或者在数据集划分之后分别对训练集和测试集进行独立的标准化。

02 为什么

如果对整个特征项进行归一化，那么测试集的信息在一定程度上已经被用于训练集的标准化过程中,因为归一化的参数是基于整个特征项进行计算的，这在一定程度上造成了数据泄露。这会导致模型评估的结果过于乐观，不利于模型在实际应用的泛化性/鲁棒性。

而对于第二种分别独立标准化，会导致两个问题：

不一致的标度：由于分别进行标准化意味着是依据各自的均值和标准差进行缩放，导致标度不一致。例如相同的原始值，在训练集和测试集的缩放值不一致。
泛化能力：测试集独立标准化使得它不再是训练模型时的真实环境模拟，模型在训练时学习到的特征权重可能无法正确适用于测试数据。

03 正确处理

应该对训练集进行标准化，并利用训练集计算得到的标准化参数对测试集进行标准化。

例如，如果使用MinMaxScaler，那么参数一般有训练集的最大值Max、最小值Min，因此对于训练集正常标准化，而对于测试集则应该使用训练集的参数进行标准化。

具体地，在代码中：

from sklearn.preprocessing import MinMaxScaler

# 训练测试集划分
train_ds = df[df[time_col_name] <= split_time]
test_ds = df[df[time_col_name] > split_time]
# 标准化
scaler = MinMaxScaler()  # 标准化器
train_ds.loc[:, x_col_names] = scaler.fit_transform(train_ds.loc[:, x_col_names])  # fit即拟合获取标准化参数, transform即基于参数进行标准化
test_ds.loc[:, x_col_names] = scaler.transform(test_ds.loc[:, x_col_names])  # 注意标准化不能独立对测试集进行, 标准化参数应来源于训练集

炒茄子

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
简记：机器学习中关于训练集和测试集的标准化问题

错误处理：在未进行数据集划分之前，对所有特征项(X/因子项)进行标准化例如MinMaxScaler\Normalizer等方法，然后再进行数据集划分；或者在数据集划分之后分别对训练集和测试集进行独立的标准化。
复制链接

扫一扫