浅谈K-Fold Target Encoding
公众号: ChallengeHub
1.Target Encoding概念
单热编码,标签编码,频率编码,目标编码等是非常常见的技巧,通常在特征工程中使用以提高模型在数据集预测的准确性。
不同的特征工程技巧可以从不同角度来丰富特征。当数据中,某些分类变量的不数量不是很多时,独热编码(One Hot encoder)或伪编码(Dummy Encoder)是一种不错的方法。但是,当要数据中分类变量的数量增加时,它可能会失效,因为这种编码方式导致数据集的维度急剧增加。此外,类别编码(Label Encoder)也具有局限性,因为可能导致特征的顺序变得随机,并且,标签编码和目标之间没有相关性。
目标编码是特征工程中最强大的方法之一,在比赛中屡试不爽,已被广泛应用并出现了多种目标编码方式。在本文中,我们将讨论和实现样本数据集的k折目标编码。基本上,k倍目标编码的目标可以是通过向均值编码添加正则化来减少均值目标编码中的过拟合。
训练集和测试数据集如图1所示。为简单起见,我们考虑仅含有两个类别变量A和B的“Feature”列,“Target”列是二进制变量:0或1。测试数据集也包含“Feature”列;但是,它没有“Target”列。注意,如果目标是一个连续变量,此方法也可以同样适用。
图1 训练集合测试集
k-flod 目标编码的基本思想源自均值目标编码。在均值目标编码中,分类变量由对应于它们的目标均值替换。从图2中可以看出,“Feature”时目标的平均值为:A = 0.6和B = 0.3。因此,A和B将分别替换为0.6和0.3。此时新“Feature”可能与目标更相关。但是,当训练集特征和测试数据集中分类变量的分布有很大差异时,此方法可能会出现严重过拟合的糟糕情况😰。
目标编码/均值编码
因此,可以应用K-Flod目标编码来减少过拟合。在这种方法中,我们将数据集分为k折,这里我们采用5折。图3显示了5折交叉验证的第一轮。我们计算第2、3、4和5折的均值目标,并使用计算出的值mean_A = 0.556和mean_B = 0.285来估计第1折的均值编码。
5-flod目标编码, 我们使用2、3、4、5折来估算第一折
之后,我们可以计算出第二折,如图4所示。
现在接下来的部分是在测试数据集中创建“ Feature_Kfold_Target_Enc”列。该列值可以通过获取训练集中的分类变量“ A”和“ B”的“ Feature_Kfold_mean_Enc”的平均值来获得。
尽管k折目标编码是一种可靠的特征工程方法,但不能保证它始终是提高准确性的最佳方法。因此我们需要尝试各种特征工程,以便测试哪个特征能给我们带来更好的性能。
代码
让我们编写k-flod目标编码的代码。KFoldTargetEncoderTrain类参数包括特征列名,目标列名,折的数量。它返回一个包含“ Feature_Kfold_mean_Enc”列的dataframe。注意,如果某折不包括某个类别变量值,例如,“ B”类别变量,则会导致NAN,我们用目标的整体均值填充NAN。
class KFoldTargetEncoderTrain(base.BaseEstimator,
base.TransformerMixin):
def __init__(self,colnames,targetName,
n_fold=5, verbosity=True,
discardOriginal_col=False):
self.colnames = colnames
self.targetName = targetName
self.n_fold = n_fold
self.verbosity = verbosity
self.discardOriginal_col = discardOriginal_col
def fit(self, X, y=None):
return self
def transform(self,X):
assert(type(self.targetName) == str)
assert(type(self.colnames) == str)
assert(self.colnames in X.columns)
assert(self.targetName in X.columns)
mean_of_target = X[self.targetName].mean()
kf = KFold(n_splits = self.n_fold,
shuffle = False, random_state=2019)
col_mean_name = self.colnames + '_' + 'Kfold_Target_Enc'
X[col_mean_name] = np.nan
for tr_ind, val_ind in kf.split(X):
X_tr, X_val = X.iloc[tr_ind], X.iloc[val_ind]
X.loc[X.index[val_ind], col_mean_name] =
X_val[self.colnames].map(X_tr.groupby(self.colnames)
[self.targetName].mean())
X[col_mean_name].fillna(mean_of_target, inplace = True)
if self.verbosity:
encoded_feature = X[col_mean_name].values
print('Correlation between the new feature, {} and, {}
is {}.'.format(col_mean_name,self.targetName,
np.corrcoef(X[self.targetName].values,
encoded_feature)[0][1]))
if self.discardOriginal_col:
X = X.drop(self.targetName, axis=1)
return X
使用代码如下:
targetc = KFoldTargetEncoderTrain('Feature','Target',n_fold=5)
new_train = targetc.fit_transform(train)
测试集如下
class KFoldTargetEncoderTest(base.BaseEstimator, base.TransformerMixin):
def __init__(self,train,colNames,encodedName):
self.train = train
self.colNames = colNames
self.encodedName = encodedName
def fit(self, X, y=None):
return self
def transform(self,X):
mean = self.train[[self.colNames,
self.encodedName]].groupby(
self.colNames).mean().reset_index()
dd = {}
for index, row in mean.iterrows():
dd[row[self.colNames]] = row[self.encodedName]
X[self.encodedName] = X[self.colNames]
X = X.replace({self.encodedName: dd})
return X
使用如下:
test_targetc = KFoldTargetEncoderTest(new_train,
'Feature',
'Feature_Kfold_Target_Enc')
new_test = test_targetc.fit_transform(test)
完整代码:https://github.com/pourya-ir/Medium/tree/master/K-fold-target-enc
原文英文链接:https://medium.com/@pouryaayria/k-fold-target-encoding-dfe9a594874b
欢迎扫码关注ChallengeHub公众号
欢迎加入ChallengeHub学习交流群