sklearn.LabelEncoder解决未见过值问题ValueError: y contains previously unseen labels: [69]
引发原因:有些标签训练集不存在,但却在测试集出现了,而且我们LabelEncoder使用的拟合fit是训练集的数据,这样就会造成异常a。
根本原因是数据不均匀,导致数据划分时没能都包括所有标签。
主要思路:把原数据集(比如train data set)里面没有但是在新数据集(比如test data set)遇到的新值放到一个类里面,再将类回传给LabelEncoder。也可以在fit中同时使用训练集和测试集的数据。
方式1:
注:下面数据是使用pandas读取的
le = LabelEncoder().fit(train_data_df[feat])
test_data_df[feat] = test_data_df[feat].map(lambda s: -1 if s not in le.classes_ else s)
le.classes_ = np.append(le.classes_, -1)
train_data_df[feat] = le.transform(train_data_df[feat])
test_data_df[feat] = le.transform(test_data_df[feat])
方式2 在fit中同时使用训练集和测试集的数据
le = LabelEncoder().fit(train_data_df[feat]+test_data_df[feat])
train_data_df[feat] = le.transform(train_data_df[feat])
test_data_df[feat] = le.transform(test_data_df[feat])