sklearn 中 LabelEncoder transform时 ValueError 错误

当使用LableEncoder对数据进行编码时,先fit数据,在transform时如果遇到fit时没有遇过的数据,程序会抛出ValueError异常。
这里相对fit时没遇过的数据统一编码为一个值。

我的解决:

x_train = LabelEncoder_list[i].fit_transform(dfTrain[feat].values) # fit并编号one-hot
try:
    x_test = LabelEncoder_list[i].transform(dfTest[feat].values) # 编号one-hot
except ValueError:
    print("LabelEncoder_list[",i,"] transform out range.")
    x_test = []
    feat_len = len(dfTest[feat].values)
    fit_len = len(LabelEncoder_list[i].classes_)
    for j in range(feat_len):
        if len(np.intersect1d(dfTest[feat].values[j], LabelEncoder_list[i].classes_)) == 1:
        # 看当前value与fit的数据集是否有交集
            x_test.append(np.searchsorted(LabelEncoder_list[i].classes_, dfTest[feat].values[j]))
            # 如果有,把fit的编号返回
        else:
            x_test.append(fit_len + 2)
            # 没有则返回一个fit中没有的编号
            # 编号为 0 - (fit_len - 1)
    x_test = np.array(x_test) # change list to array
    print("fit_len : ", fit_len)
    print("out range x_test : ", x_test)
except:
    print("Error!")
    raise

LabelEncoder.transform() 的源码:
这里写图片描述

这个错误提示表明你的数据集包含字符串类型的特征,而 `DecisionTreeClassifier` 只能接受数值类型的特征。你需要将字符串类型的特征转换为数值类型。 有几种方法可以实现这个目的: 1. 对于类别型变量,可以使用 One-Hot 编码将其转换为数值型变量。例如,使用 `pandas` 库的 `get_dummies()` 函数。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier # 加载数据集 data = pd.read_csv('data.csv') # 将类别型变量进行 One-Hot 编码 data_encoded = pd.get_dummies(data) # 分离特征和标签 X = data_encoded.drop('label', axis=1) y = data_encoded['label'] # 训练模型 clf = DecisionTreeClassifier() clf.fit(X, y) ``` 2. 对于有序的类别型变量,可以使用 LabelEncoder 将其转换为数值型变量。例如,使用 `sklearn` 库的 `LabelEncoder` 类。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.preprocessing import LabelEncoder # 加载数据集 data = pd.read_csv('data.csv') # 对有序的类别型变量进行标签编码 le = LabelEncoder() data['ordered_feature'] = le.fit_transform(data['ordered_feature']) # 分离特征和标签 X = data.drop('label', axis=1) y = data['label'] # 训练模型 clf = DecisionTreeClassifier() clf.fit(X, y) ``` 无论使用哪种方法,都要确保数据集没有缺失值,否则会出现 `ValueError: Input contains NaN, infinity or a value too large for dtype('float64')` 的错误。如果有缺失值,可以使用 `pandas` 库的 `fillna()` 函数或 `sklearn` 库的 `SimpleImputer` 类进行处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值