sklearn.LabelEncoder解决未见过值问题ValueError y contains previously unseen labels [69]

最新推荐文章于 2024-05-24 18:32:26 发布

集电极

最新推荐文章于 2024-05-24 18:32:26 发布

阅读量6.2k

点赞数 2

分类专栏： python随笔 BUG 文章标签： python 人工智能

本文链接：https://blog.csdn.net/qq_38463737/article/details/119236133

版权

python随笔同时被 2 个专栏收录

87 篇文章

订阅专栏

BUG

68 篇文章

订阅专栏

sklearn.LabelEncoder解决未见过值问题ValueError: y contains previously unseen labels: [69]

引发原因：有些标签训练集不存在，但却在测试集出现了，而且我们LabelEncoder使用的拟合fit是训练集的数据，这样就会造成异常a。

根本原因是数据不均匀，导致数据划分时没能都包括所有标签。

主要思路：把原数据集（比如train data set）里面没有但是在新数据集（比如test data set）遇到的新值放到一个类里面，再将类回传给LabelEncoder。也可以在fit中同时使用训练集和测试集的数据。

方式1：

注：下面数据是使用pandas读取的

le = LabelEncoder().fit(train_data_df[feat])
test_data_df[feat] = test_data_df[feat].map(lambda s: -1 if s not in le.classes_ else s)
le.classes_ = np.append(le.classes_, -1)
train_data_df[feat] = le.transform(train_data_df[feat])
test_data_df[feat] = le.transform(test_data_df[feat])

方式2 在fit中同时使用训练集和测试集的数据

le = LabelEncoder().fit(train_data_df[feat]+test_data_df[feat])

train_data_df[feat] = le.transform(train_data_df[feat])
test_data_df[feat] = le.transform(test_data_df[feat])