sklearn.LabelEncoder出现之前从未见过值

该博客介绍了如何处理在测试集中出现的未在训练集中出现的新标签。提供了两种方法:一是创建一个自定义的LabelEncoder类,将新标签标记为'Unknown';二是更新序列编码,遇到新标签时增加编码值。这两种方法都确保了对新标签的处理,并给出了具体的Python代码示例。

方法一:将陌生序列标记为Unknown

如果将LabelEncoder.transform将训练集转换为编码序列,则在测试集上使用时如果遇到新的值,则可能会报错。'<Unknown>'

我们可以继承LabelEncoder并重写fit和transform。 如果您有一个新标签,它将被分配为未知类。

from sklearn.preprocessing import LabelEncoder as LEncoder

class LabelEncoder(LEncoder):
 
    def fit(self, y):
        """
        This will fit the encoder for all the unique values
        and introduce unknown value
        :param y: A list of string
        :return: self
        """
        return super(LabelEncoder, self).fit(list(y) + ['Unknown'])
 
    def transform(self, y):
        """
        This will transform the y to id list where the new values
        get assigned to Unknown class
        :param y:
        :return: array-like of shape [n_samples]
        """
        new_y = ['Unknown' if x not in set(self.classes_) else x for x in y]
        return super(LabelEncoder, self).transform(new_y)

样本用法:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值