筛选样本_智能风控(梅子行)笔记—用XGBoost进行特征筛选

199624fe2edc9927dad7d2e21296de01.png

本文参考下链 ,如果对数据集或书内更多更多讲解内容感兴趣,请直接购买

智能风控(原理,算法与工程实践)​www.amazon.cn

这篇手码了一遍梅子行在书中的递归筛选方案,梳理的框架上是这样的.

  1. 首先定义了在风控场景下,特征迭代筛选和两个关键性指标:
  • KS: 模型的正负样本体现的关键指标,这与普通学习任务中的针对AUC,Precision等的优化方向不一样,所以基本自己定义了一个评价指标。
  • PSI: 模型各个在各个检测分段上的检测稳定性.
也就是区分能力要强,模型结果要稳定.

需要注意的是,我们在使用XGBoost的时候其实有自带一个Featureimportance功能(上一篇写xgboost有提到,分为weight, gain和cover三种不同形式),如果我们在入模之前没有对模型特征做相关性的处理的话,直接使用XGBoost进行特征筛选是不合理的. 我下面举个例子:

af856d8a60eacb79866ad65d37a3271a.png

如果有两个特征的分布是像上图这样的,可以发现他们的相关性一定是差不多的,在XGBOOST用于分裂时2个特征肯定会被随机用来分树,那么这两个本身如果重要性比较高的话,特征的真正重要性就会丢失。

回到书中的内容,这节先定义了2个评估模型效果的函数

SolveKS:

用于计算当前模型在某数据集上的KS,KS值对模型的评价不会受到样本不均衡问题的影响.
这些函数都继承自之前XGBoost父类
注意这个函数还加了个Weight参数,这是为了还原真实样本比例下的比例,举个例子,正样本有100,负样本有10000,对负样本按照0.4的比例进行下采样,就会得到4000的负样本,对100的正样本和4000的负样本进行建模,但是需要将负样本的权重设置为2.5,才能还原到初始的正负样本的比例
def sloveKS(self, model, X, Y, Weight):  
    Y_predict = [s[1] for s in model.predict_proba(X)]  
    nrows = X.shape[0]  
    #还原权重  
    lis = [(Y_predict[i], Y.values[i], Weight[i]) for i in range(nrows)]
    #按照预测概率倒序排列  
    ks_lis = sorted(lis, key=lambda x: x[0], reverse=True)        
    KS = list()  
    bad = sum([w for (p, y, w) in ks_lis if y
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智能风控是指利用大数据、人工智能等技术手段对金融交易中的风险进行识别、评估和控制的过程。在智能风控实践中,模型、特征和决策是三个非常重要的环节。下面将从这三个方面介绍智能风控实践指南。 一、模型 在智能风控中,模型是非常重要的一环。模型的选择和优化直接影响着风控效果的好坏。以下是一些建议: 1.选择合适的模型 在选择模型时,需要考虑数据的特征样本量、算法的复杂度、计算时间等因素。常用的模型有逻辑回归、决策树、随机森林、神经网络等。不同的模型有不同的特点和适用场景,需要根据实际情况进行选择。 2.特征工程 特征工程是指对原始数据进行处理,提取出有用的特征,用于模型的训练和预测。特征工程的好坏直接影响着模型的性能。特征工程需要根据实际情况进行选择和优化,一般包括特征选择、特征变换等。 3.模型优化 模型优化是指对模型进行参数调优,从而提高模型的预测能力。模型优化需要根据实际情况进行选择和优化,一般包括正则化、交叉验证等。 二、特征 特征是指用于模型训练和预测的数据。在智能风控实践中,选择合适的特征可以提高模型的预测能力。以下是一些建议: 1.数据清洗 数据清洗是指对原始数据进行处理,去除无用的特征和异常值,保证数据的准确性和完整性。 2.数据预处理 数据预处理是指对原始数据进行处理,包括归一化、标准化等,使数据更适合于模型的训练和预测。 3.特征选择 特征选择是指从原始数据中选择出最有用的特征,用于模型的训练和预测。特征选择需要根据实际情况进行选择,一般包括方差分析、卡方检验等。 三、决策 决策是指根据模型的预测结果进行判断和决策,从而控制风险。以下是一些建议: 1.风控策略 风控策略是指对不同风险进行分类和评估,制定相应的控制策略。风控策略需要根据实际情况进行选择和优化,一般包括分类模型、评分模型等。 2.风险控制 风险控制是指根据风控策略对风险进行控制,包括风险预警、持仓限制、交易限制等。 3.风险回溯 风险回溯是指对风险控制的效果进行回溯和评估,从而优化风控策略和控制措施。 综上所述,智能风控实践涉及到模型、特征和决策等多个方面,需要根据实际情况进行选择和优化。在实际应用中,需要不断调整和优化,不断提高风控的效果和精度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值