学习风控,这42道面试题你会吗

本文详细探讨了风控建模的各个环节,包括样本分布、特征处理(如衍生、填充和筛选)、数据集划分、模型选择(如逻辑回归和LightGBM)、参数优化以及模型部署和监控。涉及关键步骤和技术如缺失值处理、特征重要性评估和反欺诈策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

风控建模

1.建模总样本量,坏客户样本量和好客户样本量,坏客户占比多少?

2.原始特征数量,特征衍生的数量,入模特征数量

3.特征衍生的方法有哪些

4.缺失值填充的方式有哪些?

5.特征筛选的流程?(特征选择从可解释性,稳定性,预测能力,重要性)

6.数据集划分的方式?

7.用到了哪些第三方的数据变量(用过哪些三方数据,效果怎么样。)

8.用了哪些征信报告的数据变量(人行征信报告有哪些内容)

9.入模特征中,哪几个特征的预测能力最强,IV值比较高的(哪些特征你觉得比较有用)

10.y标签的定义?

11.评分卡模型的通过率是多少,业务客群的逾期率是多少,月客群的进件量多少?

12.模型在训练集和测试集、验证集上的ks和auc是多少?

13.建模评分卡,用到哪些算法模型?推导一下原理。例如逻辑回归和lightgbm

14.评分卡的映射分数公式?

15. 如何优化模型的参数,参数优化的方法有哪些

16.逻辑回归主要需要优化哪些参数,xgboost和lightgbm需要优化哪些参数?

17.随机森林的原理和决策树CART的原理了解一下

18.woe分箱的切分点是如何计算的,woe和iv计算的方法有哪些(特征分箱方法) 答:主要有人工分箱,卡方分箱,决策树分箱,等频等箱分箱

19.首逾期率FPD和次逾率SPD分别为多少

20.模型监控:基本回答一下监控哪些内容,大概多久或者什么情况更新模型。

21.模型优化:调参方法(主要是XGB的调参,从训练速度、精度、过拟合三个方面回答+网格搜索或者贝叶斯优化)

22.自定义损失函数和评价函数经验?

23.过拟合和欠拟合解决方法?

24.梯度下降参数权重最优求解?

25.评分卡一系列流程,包括LR,WOE,IV,PSI简单公式。

图片

风控业务

1.你们公司的主要业务是什么?

Ø  属于什么类型的贷款产品(车抵贷、消费分期等等) Ø  客户一般来自什么渠道,是特定的群体(比如4S店买车,车商) Ø  贷款额度、还款周期:36期,几十万

2. 你们的业务做得怎么样?通过率为*%,模型通过率为*%,逾期率为*%~*%

3.你负责哪些业务?风控建模,策略规则开发,贷后催收监控开发

4.讲一下你的模型怎么做的?ØY标签如何定义,用到什么模型 Ø了解滚动率、迁移率

5.做模型用到哪些数据源?征信报告数据,运营商数据,平台自有数据,第三方数据

6.模型效果怎么样?训练集和测试集的ks、auc指标,模型的psi指标 单变量的IV筛选,分数的cutoff划分点

7.模型如何部署上线?生成pmml文件,给java开发调用 评分卡每个区间的分数加起来,利用if else 8.模型上线需要注意什么?线上线下变量的逻辑必须完全一致

9.推导一下逻辑回归和xgboost模型

10.风控建模中好坏定义的依据是什么,怎么划定表现期和观察期?

11.为什么要做拒绝推断,常用拒绝推断方法有哪些

12.滚动率矩阵的计算逻辑

13.如何辨识业务中的信用风险和欺诈风险,常用的反欺诈策略都有哪些。

14.woe分箱的方法和切分依据?

15.woe分箱的好处?

16. 逻辑回归的评价函数,由损失函数和正则项组成?

L1是正则项,主要有L1和L2正则两种。C表示正则化强度的倒数,较小的值指定更强的正则化。C越大,λ越小,对正则项的惩罚力度越小,参数选择的空间会变大。

17.模型上线之后区分度快速下降?

可能原因有:线上模型的特征和线下逻辑不一致。特征的稳定性出现问题。需要分析每个特征的PSI值,必要时进行模型重构。模型样本和进件样本分布不一致导致的模型误差。需要进行拒绝推断模拟进件样本的真实分布。

图片

风控建模流程

①数据类型推断与调整(字符型,数值型,id型,时间型)

②划分数据集:训练集和测试集,验证集(按照时间段划分,调整各个样本集的好坏样本占比相近)

③计算特征偏移covariate_shift和训练集分箱,以训练集的分箱情况去切分测试集计算变量的psi指标,过滤不稳定的特征(psi>0.1)

④缺失值填充(随机森林和以坏账率最相近的分箱区间值作为填充)

⑤特征衍生(好坏客户自动评分衍生,决策树衍生,低IV变量重新组合衍生,聚类标签衍生)

⑥特征筛选

1.剔除缺失率大于*的变量

2.剔除类别大于*的变量

3.剔除时间变量

4.剔除单一值的变量

5.剔除共线性问题的变量,VIF大于*的变量

6.剔除iv小于*

7.剔除高相关性变量中IV较低的,保留IV较高的变量

8.模型的特征重要性过滤(三种方法)

⑦超参数寻优的方法和避免过拟合(K折交叉验证,L1正则项)

⑧KS和AUC值在训练集和测试集上的表现对比

⑨score的psi和iv

⑩生成模型pmml,监控模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值