风控建模
1.建模总样本量,坏客户样本量和好客户样本量,坏客户占比多少?
2.原始特征数量,特征衍生的数量,入模特征数量
3.特征衍生的方法有哪些
4.缺失值填充的方式有哪些?
5.特征筛选的流程?(特征选择从可解释性,稳定性,预测能力,重要性)
6.数据集划分的方式?
7.用到了哪些第三方的数据变量(用过哪些三方数据,效果怎么样。)
8.用了哪些征信报告的数据变量(人行征信报告有哪些内容)
9.入模特征中,哪几个特征的预测能力最强,IV值比较高的(哪些特征你觉得比较有用)
10.y标签的定义?
11.评分卡模型的通过率是多少,业务客群的逾期率是多少,月客群的进件量多少?
12.模型在训练集和测试集、验证集上的ks和auc是多少?
13.建模评分卡,用到哪些算法模型?推导一下原理。例如逻辑回归和lightgbm
14.评分卡的映射分数公式?
15. 如何优化模型的参数,参数优化的方法有哪些
16.逻辑回归主要需要优化哪些参数,xgboost和lightgbm需要优化哪些参数?
17.随机森林的原理和决策树CART的原理了解一下
18.woe分箱的切分点是如何计算的,woe和iv计算的方法有哪些(特征分箱方法) 答:主要有人工分箱,卡方分箱,决策树分箱,等频等箱分箱
19.首逾期率FPD和次逾率SPD分别为多少
20.模型监控:基本回答一下监控哪些内容,大概多久或者什么情况更新模型。
21.模型优化:调参方法(主要是XGB的调参,从训练速度、精度、过拟合三个方面回答+网格搜索或者贝叶斯优化)
22.自定义损失函数和评价函数经验?
23.过拟合和欠拟合解决方法?
24.梯度下降参数权重最优求解?
25.评分卡一系列流程,包括LR,WOE,IV,PSI简单公式。
风控业务
1.你们公司的主要业务是什么?
Ø 属于什么类型的贷款产品(车抵贷、消费分期等等) Ø 客户一般来自什么渠道,是特定的群体(比如4S店买车,车商) Ø 贷款额度、还款周期:36期,几十万
2. 你们的业务做得怎么样?通过率为*%,模型通过率为*%,逾期率为*%~*%
3.你负责哪些业务?风控建模,策略规则开发,贷后催收监控开发
4.讲一下你的模型怎么做的?ØY标签如何定义,用到什么模型 Ø了解滚动率、迁移率
5.做模型用到哪些数据源?征信报告数据,运营商数据,平台自有数据,第三方数据
6.模型效果怎么样?训练集和测试集的ks、auc指标,模型的psi指标 单变量的IV筛选,分数的cutoff划分点
7.模型如何部署上线?生成pmml文件,给java开发调用 评分卡每个区间的分数加起来,利用if else 8.模型上线需要注意什么?线上线下变量的逻辑必须完全一致
9.推导一下逻辑回归和xgboost模型
10.风控建模中好坏定义的依据是什么,怎么划定表现期和观察期?
11.为什么要做拒绝推断,常用拒绝推断方法有哪些
12.滚动率矩阵的计算逻辑
13.如何辨识业务中的信用风险和欺诈风险,常用的反欺诈策略都有哪些。
14.woe分箱的方法和切分依据?
15.woe分箱的好处?
16. 逻辑回归的评价函数,由损失函数和正则项组成?
L1是正则项,主要有L1和L2正则两种。C表示正则化强度的倒数,较小的值指定更强的正则化。C越大,λ越小,对正则项的惩罚力度越小,参数选择的空间会变大。
17.模型上线之后区分度快速下降?
可能原因有:线上模型的特征和线下逻辑不一致。特征的稳定性出现问题。需要分析每个特征的PSI值,必要时进行模型重构。模型样本和进件样本分布不一致导致的模型误差。需要进行拒绝推断模拟进件样本的真实分布。
风控建模流程
①数据类型推断与调整(字符型,数值型,id型,时间型)
②划分数据集:训练集和测试集,验证集(按照时间段划分,调整各个样本集的好坏样本占比相近)
③计算特征偏移covariate_shift和训练集分箱,以训练集的分箱情况去切分测试集计算变量的psi指标,过滤不稳定的特征(psi>0.1)
④缺失值填充(随机森林和以坏账率最相近的分箱区间值作为填充)
⑤特征衍生(好坏客户自动评分衍生,决策树衍生,低IV变量重新组合衍生,聚类标签衍生)
⑥特征筛选
1.剔除缺失率大于*的变量
2.剔除类别大于*的变量
3.剔除时间变量
4.剔除单一值的变量
5.剔除共线性问题的变量,VIF大于*的变量
6.剔除iv小于*
7.剔除高相关性变量中IV较低的,保留IV较高的变量
8.模型的特征重要性过滤(三种方法)
⑦超参数寻优的方法和避免过拟合(K折交叉验证,L1正则项)
⑧KS和AUC值在训练集和测试集上的表现对比
⑨score的psi和iv
⑩生成模型pmml,监控模型。