划分数据集之前one-hot，还是划分之后one-hot

最新推荐文章于 2022-10-17 15:55:41 发布

飞奔的帅帅

最新推荐文章于 2022-10-17 15:55:41 发布

阅读量1.3k

点赞数 3

分类专栏：机器学习实战文章标签：整体one-hot 划分之后onehot 测试集出现新的类别 test怎么one-hot

本文链接：https://blog.csdn.net/ustbbsy/article/details/103389758

版权

在处理类别型特征时，是否应在数据划分前还是后进行one-hot编码是个关键问题。整体one-hot编码确保train和test的维度一致，但可能在新数据集中遇到未知类别。而划分后one-hot编码则可能导致train和test集中的类别不匹配。正确的做法需要在训练和测试集之间分别进行one-hot编码，以妥善处理新出现的类别。

摘要由CSDN通过智能技术生成

在处理类别型特征时，有时需要进行one-hot

在进行模型训练时，需要把数据划分train和test，类别型数据是在划分之前one-hot，还是划分之后？

在划分之前做one-hot

整体one-hot，train和test 不会出现某个值无法编码的问题。

train和test的维度都是一致的，可以做训练和测试。

但，如果给你一份新的数据集，在类别型数据里出现了新的值，该怎么表示？

划分之后做one-hot

这样会遇到两个问题

某个值，train中出现，test未出现，怎么处理？
某个值，train中未出现，test中出现，怎么处理？

在此之前，我也是对数据整体做one-hot的处理的，但这是不正确。正确的做法：

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

### Correct
train = pd.DataFrame(['A', 'B', 'A', 'C'])
test = pd.DataFrame(['B', 'A', 'D'])

enc = OneHotEncoder(handle_unknown = 'ignore')
enc.fit(train)

enc.transform(train).toarray()
#array([[1., 0., 0.],
#       [0., 1.,

最低0.47元/天解锁文章

飞奔的帅帅

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
划分数据集之前one-hot，还是划分之后one-hot

在处理类别型特征时，有时需要进行one-hot在进行模型训练时，需要把数据划分train和test，类别型数据是在划分之前one-hot，还是划分之后？在划分之前做one-hot整体one-hot，train和test 不会出现某个值无法编码的问题。train和test的维度都是一致的，可以做训练和测试。但，如果给你一份新的数据集，在类别型数据里出现了新的值，该怎么表示？划...
复制链接

扫一扫

专栏目录