【Python】对抗验证

1. 概念

  • 对抗验证(Adversarial Validation)是一种用于检测训练集和测试集之间分布差异的技术。
  • 构建二分类器对将训练集和测试集进行区分,即将训练集和测试集的样本分别标记为0和1,从而判断它们之间的相似性。
  • 如果这个二分类器的性能很好,说明训练集和测试集之间的分布差异很大

2. 代码示例(挑选特征)

  • 每个特征依次单独作为训练特征预测adv,进行k折交叉验证,只要在交叉验证中出现了score超过阈值,则说明该特征能很好的区分训练集和测试集,相应的也说明该特征在测试集和训练集上分布差距过大,如果训练模型时加入会导致在训练集上过拟合该特征,影响泛化能力,应该剔除。
def get_adv_feats(df_train, df_test, feats):
	'''
	adv新特征标识训练集测试集
	训练集测试集合并,供后面交叉验证
	'''
    df_train['adv'] = 1
    df_test['adv'] = 0
    df = pd.concat([df_train, df_test]).reset_index(drop=True)
    
    params = {
        'learning_rate': 0.1,
        'boosting_type': 'gbdt',
        'objective': 'binary',
        'metric': 'auc',
        'seed': 2222,
        'n_jobs': 4,
        'verbose': -1,
    }
    
    fold_num = 5
    seeds = [2222]
    new_feats = []
    '''
    每个特征依次单独作为训练特征预测adv,
    进行k折交叉验证,
    只要在交叉验证中出现了score超过阈值,
    则说明该特征能很好的区分训练集和测试集,相应的也说明该特征在测试集和训练集上分布差距过大,
    如果训练模型时加入会导致在训练集上过拟合该特征,影响泛化能力,应该剔除。
	'''
    for f in feats:
        oof = np.zeros(len(df))
        for seed in seeds:
            kf = StratifiedKFold(n_splits=fold_num, shuffle=True, random_state=seed)
            for fold, (train_idx, val_idx) in enumerate(kf.split(df[[f]], df['adv'])):
                train = lgb.Dataset(df.loc[train_idx, [f]],
                                    df.loc[train_idx, 'adv'])
                val = lgb.Dataset(df.loc[val_idx, [f]],
                                  df.loc[val_idx, 'adv'])
                model = lgb.train(params, train, valid_sets=[val], num_boost_round=10000,  # feval=recall_score,
                                  callbacks=[lgb.early_stopping(100), lgb.log_evaluation(-1)])
                # 将预测结果除以“seeds”的数量,以避免由于随机种子的不同而导致预测结果存在过多的方差
                oof[val_idx] += model.predict(df.loc[val_idx, [f]]) / len(seeds)
                score = auc(df.loc[val_idx, 'adv'], oof[val_idx])
                if score > 0.85:
                    print('--------------------------------------', f, score)
                else:
                    new_feats.append(f)
                break
    return new_feats


feats = get_adv_feats(df_train, df_test, feats)
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python人工智能面经通常包括以下内容: 1. 基本知识:面试官可能会考察Python基础知识,如数据类型、数据结构、面向对象等。同时,还需要了解人工智能相关的概念和算法,例如机器学习深度学习、自然语言处理等。 2. 编程能力:面试官可能会让你解决一些算法和数据结构的问题,例如字符串处理、矩阵运算等。同时,还需要能够运用Python库,如NumPy、Pandas、TensorFlow等进行数据处理和模型训练。 3. 机器学习算法:除了基础知识,面试官可能会问到机器学习算法的原理和应用。你需要了解常见的监督学习算法(如回归、分类、聚类)、无监督学习算法和特征工程等。同时,还需要了解评估模型性能的方法,如交叉验证、ROC曲线等。 4. 深度学习算法:面试官可能会询问深度学习算法的原理和应用。你需要了解常见的神经网络结构(如卷积神经网络、循环神经网络、生成对抗网络等),并了解反向传播算法、损失函数和优化算法等。 5. 实际项目经验:面试官可能会询问你在人工智能领域的实际项目经验。你可以准备一些自己完成的项目,包括数据清洗、特征选择、模型训练和结果分析等。 6. 计算机视觉和自然语言处理:面试官可能会问到计算机视觉或自然语言处理方面的问题。你需要了解图像处理、目标检测、图像分割和文本分类、情感分析等相关概念和算法。 7. 其他问题:面试过程中,面试官可能会提问一些与人工智能相关的最新进展、热门话题或者附加问题,以考察你对行业动态的了解程度和扩展能力。 在准备Python人工智能面经过程中,除了对上述内容的深入理解和掌握,还需要进行大量的练习和实践,提高编程能力和解决问题的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值