sklearn.LabelEncoder解决未见过值问题ValueError y contains previously unseen labels [69]

sklearn.LabelEncoder解决未见过值问题ValueError: y contains previously unseen labels: [69]

引发原因:有些标签训练集不存在,但却在测试集出现了,而且我们LabelEncoder使用的拟合fit是训练集的数据,这样就会造成异常a。

根本原因是数据不均匀,导致数据划分时没能都包括所有标签。

主要思路:把原数据集(比如train data set)里面没有但是在新数据集(比如test data set)遇到的新值放到一个类里面,再将类回传给LabelEncoder。也可以在fit中同时使用训练集和测试集的数据。

方式1:

注:下面数据是使用pandas读取的

le = LabelEncoder().fit(train_data_df[feat])
test_data_df[feat] = test_data_df[feat].map(lambda s: -1 if s not in le.classes_ else s)
le.classes_ = np.append(le.classes_, -1)
train_data_df[feat] = le.transform(train_data_df[feat])
test_data_df[feat] = le.transform(test_data_df[feat])

方式2 在fit中同时使用训练集和测试集的数据

le = LabelEncoder().fit(train_data_df[feat]+test_data_df[feat])

train_data_df[feat] = le.transform(train_data_df[feat])
test_data_df[feat] = le.transform(test_data_df[feat])
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值