【Python】对抗验证

对抗验证是一种评估训练集和测试集分布差异的方法,通过构建二分类器来区分两者。如果某特征能有效区分这两部分数据,说明可能在训练集和测试集上有显著差异,可能导致过拟合。代码示例展示了如何使用LightGBM进行K折交叉验证,当特征区分性能超过阈值时,该特征会被认为不适合用于模型训练。
摘要由CSDN通过智能技术生成

1. 概念

  • 对抗验证(Adversarial Validation)是一种用于检测训练集和测试集之间分布差异的技术。
  • 构建二分类器对将训练集和测试集进行区分,即将训练集和测试集的样本分别标记为0和1,从而判断它们之间的相似性。
  • 如果这个二分类器的性能很好,说明训练集和测试集之间的分布差异很大

2. 代码示例(挑选特征)

  • 每个特征依次单独作为训练特征预测adv,进行k折交叉验证,只要在交叉验证中出现了score超过阈值,则说明该特征能很好的区分训练集和测试集,相应的也说明该特征在测试集和训练集上分布差距过大,如果训练模型时加入会导致在训练集上过拟合该特征,影响泛化能力,应该剔除。
def get_adv_feats(df_train, df_test, feats):
	'''
	adv新特征标识训练集测试集
	训练集测试集合并,供后面交叉验证
	'''
    df_train['adv'] = 1
    df_test['adv'] = 0
    df = pd.concat([df_train, df_test]).reset_index(drop=True)
    
    params = {
        'learning_rate': 0.1,
        'boosting_type': 'gbdt',
        'objective': 'binary',
        'metric': 'auc',
        'seed': 2222,
        'n_jobs': 4,
        'verbose': -1,
    }
    
    fold_num = 5
    seeds = [2222]
    new_feats = []
    '''
    每个特征依次单独作为训练特征预测adv,
    进行k折交叉验证,
    只要在交叉验证中出现了score超过阈值,
    则说明该特征能很好的区分训练集和测试集,相应的也说明该特征在测试集和训练集上分布差距过大,
    如果训练模型时加入会导致在训练集上过拟合该特征,影响泛化能力,应该剔除。
	'''
    for f in feats:
        oof = np.zeros(len(df))
        for seed in seeds:
            kf = StratifiedKFold(n_splits=fold_num, shuffle=True, random_state=seed)
            for fold, (train_idx, val_idx) in enumerate(kf.split(df[[f]], df['adv'])):
                train = lgb.Dataset(df.loc[train_idx, [f]],
                                    df.loc[train_idx, 'adv'])
                val = lgb.Dataset(df.loc[val_idx, [f]],
                                  df.loc[val_idx, 'adv'])
                model = lgb.train(params, train, valid_sets=[val], num_boost_round=10000,  # feval=recall_score,
                                  callbacks=[lgb.early_stopping(100), lgb.log_evaluation(-1)])
                # 将预测结果除以“seeds”的数量,以避免由于随机种子的不同而导致预测结果存在过多的方差
                oof[val_idx] += model.predict(df.loc[val_idx, [f]]) / len(seeds)
                score = auc(df.loc[val_idx, 'adv'], oof[val_idx])
                if score > 0.85:
                    print('--------------------------------------', f, score)
                else:
                    new_feats.append(f)
                break
    return new_feats


feats = get_adv_feats(df_train, df_test, feats)
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值