浅谈K-Fold Target Encoding

最新推荐文章于 2022-08-05 15:36:29 发布

lrhaowx

最新推荐文章于 2022-08-05 15:36:29 发布

阅读量2.8k

点赞数 15

分类专栏：人工智能 python 机器学习文章标签： python 机器学习深度学习人工智能 kaggle

本文链接：https://blog.csdn.net/weixin_43475854/article/details/114197026

版权

python 同时被 3 个专栏收录

13 篇文章 1 订阅

订阅专栏

人工智能

12 篇文章 1 订阅

订阅专栏

机器学习

12 篇文章 4 订阅

订阅专栏

浅谈K-Fold Target Encoding

公众号： ChallengeHub
在这里插入图片描述

1.Target Encoding概念
单热编码，标签编码，频率编码，目标编码等是非常常见的技巧，通常在特征工程中使用以提高模型在数据集预测的准确性。

不同的特征工程技巧可以从不同角度来丰富特征。当数据中，某些分类变量的不数量不是很多时，独热编码(One Hot encoder)或伪编码(Dummy Encoder)是一种不错的方法。但是，当要数据中分类变量的数量增加时，它可能会失效，因为这种编码方式导致数据集的维度急剧增加。此外，类别编码(Label Encoder)也具有局限性，因为可能导致特征的顺序变得随机，并且，标签编码和目标之间没有相关性。

目标编码是特征工程中最强大的方法之一，在比赛中屡试不爽，已被广泛应用并出现了多种目标编码方式。在本文中，我们将讨论和实现样本数据集的k折目标编码。基本上，k倍目标编码的目标可以是通过向均值编码添加正则化来减少均值目标编码中的过拟合。

训练集和测试数据集如图1所示。为简单起见，我们考虑仅含有两个类别变量A和B的“Feature”列，“Target”列是二进制变量：0或1。测试数据集也包含“Feature”列；但是，它没有“Target”列。注意，如果目标是一个连续变量，此方法也可以同样适用。

图1 训练集合测试集

k-flod 目标编码的基本思想源自均值目标编码。在均值目标编码中，分类变量由对应于它们的目标均值替换。从图2中可以看出，“Feature”时目标的平均值为：A = 0.6和B = 0.3。因此，A和B将分别替换为0.6和0.3。此时新“Feature”可能与目标更相关。但是，当训练集特征和测试数据集中分类变量的分布有很大差异时，此方法可能会出现严重过拟合的糟糕情况😰。
在这里插入图片描述
目标编码/均值编码

因此，可以应用K-Flod目标编码来减少过拟合。在这种方法中，我们将数据集分为k折，这里我们采用5折。图3显示了5折交叉验证的第一轮。我们计算第2、3、4和5折的均值目标，并使用计算出的值mean_A = 0.556和mean_B = 0.285来估计第1折的均值编码。
在这里插入图片描述

5-flod目标编码，我们使用2、3、4、5折来估算第一折

之后，我们可以计算出第二折，如图4所示。
在这里插入图片描述

现在接下来的部分是在测试数据集中创建“ Feature_Kfold_Target_Enc”列。该列值可以通过获取训练集中的分类变量“ A”和“ B”的“ Feature_Kfold_mean_Enc”的平均值来获得。
图片图片

尽管k折目标编码是一种可靠的特征工程方法，但不能保证它始终是提高准确性的最佳方法。因此我们需要尝试各种特征工程，以便测试哪个特征能给我们带来更好的性能。

代码
让我们编写k-flod目标编码的代码。KFoldTargetEncoderTrain类参数包括特征列名，目标列名，折的数量。它返回一个包含“ Feature_Kfold_mean_Enc”列的dataframe。注意，如果某折不包括某个类别变量值，例如，“ B”类别变量，则会导致NAN，我们用目标的整体均值填充NAN。

class KFoldTargetEncoderTrain(base.BaseEstimator,
                               base.TransformerMixin):
    def __init__(self,colnames,targetName,
                  n_fold=5, verbosity=True,
                  discardOriginal_col=False):
        self.colnames = colnames
        self.targetName = targetName
        self.n_fold = n_fold
        self.verbosity = verbosity
        self.discardOriginal_col = discardOriginal_col
    def fit(self, X, y=None):
        return self
    def transform(self,X):
        assert(type(self.targetName) == str)
        assert(type(self.colnames) == str)
        assert(self.colnames in X.columns)
        assert(self.targetName in X.columns)
        mean_of_target = X[self.targetName].mean()
        kf = KFold(n_splits = self.n_fold,
                   shuffle = False, random_state=2019)
        col_mean_name = self.colnames + '_' + 'Kfold_Target_Enc'
        X[col_mean_name] = np.nan
        for tr_ind, val_ind in kf.split(X):
            X_tr, X_val = X.iloc[tr_ind], X.iloc[val_ind]
            X.loc[X.index[val_ind], col_mean_name] =    
            X_val[self.colnames].map(X_tr.groupby(self.colnames)
                                     [self.targetName].mean())
            X[col_mean_name].fillna(mean_of_target, inplace = True)
        if self.verbosity:
            encoded_feature = X[col_mean_name].values
            print('Correlation between the new feature, {} and, {} 
                   is {}.'.format(col_mean_name,self.targetName,                    
                   np.corrcoef(X[self.targetName].values,
                               encoded_feature)[0][1]))
        if self.discardOriginal_col:
            X = X.drop(self.targetName, axis=1)
        return X

使用代码如下：

targetc = KFoldTargetEncoderTrain('Feature','Target',n_fold=5)
new_train = targetc.fit_transform(train)

测试集如下

class KFoldTargetEncoderTest(base.BaseEstimator, base.TransformerMixin):

    def __init__(self,train,colNames,encodedName):

        self.train = train
        self.colNames = colNames
        self.encodedName = encodedName

    def fit(self, X, y=None):
        return self
    def transform(self,X):
        mean =  self.train[[self.colNames,
                self.encodedName]].groupby(
                                self.colNames).mean().reset_index() 

        dd = {}
        for index, row in mean.iterrows():
            dd[row[self.colNames]] = row[self.encodedName]
        X[self.encodedName] = X[self.colNames]
        X = X.replace({self.encodedName: dd})
   return X

使用如下：

test_targetc = KFoldTargetEncoderTest(new_train,
                                      'Feature',
                                      'Feature_Kfold_Target_Enc')
new_test = test_targetc.fit_transform(test)

完整代码：https://github.com/pourya-ir/Medium/tree/master/K-fold-target-enc

原文英文链接：https://medium.com/@pouryaayria/k-fold-target-encoding-dfe9a594874b

欢迎扫码关注ChallengeHub公众号
在这里插入图片描述
欢迎加入ChallengeHub学习交流群

lrhaowx

关注

15
点赞
踩
36

收藏

觉得还不错? 一键收藏
3
评论
浅谈K-Fold Target Encoding

浅谈K-Fold Target Encoding原创致Great ，公众号： ChallengeHub1.Target Encoding概念单热编码，标签编码，频率编码，目标编码等是非常常见的技巧，通常在特征工程中使用以提高模型在数据集预测的准确性。不同的特征工程技巧可以从不同角度来丰富特征。当数据中，某些分类变量的不数量不是很多时，独热编码(One Hot encoder)或伪编码(Dummy Encoder)是一种不错的方法。但是，当要数据中分类变量的数量增加时，它可能会失效，因为这种编码方
复制链接

扫一扫

专栏目录