本文转自知乎楼小轰的文章《信贷风控模型岗的一些面试经验》 https://zhuanlan.zhihu.com/p/283062065
另外本人基于自己的积累写了一些问题的答案,文中灰色部分为本人所答,可能会有错误或理解不当之处,望多多指正。
简历细节怎么写就不描述了,但是很关键的一点是一些互联网大厂很看重面试者“新想法”,所以可以准备一个比较有想法有价值的方案。技术栈可以重点准备几个方面:
算法:
1、评分卡一系列流程,包括LR,WOE,IV简单公式, 为什么用WOE,为什么WOE 要用ln,评分卡分数转化。
答:主要写下为什么用WOE以及WOE为什么要用ln。
为什么用WOE:一种理解是为什么需要对变量进行分箱,另一种理解是为什么使用WOE值而不是原始数据入模。主要原因有让变量更有鲁棒性、简化模型、引入非线性、加快运算速度。
为什么WOE使用ln:赋予逻辑回归一定程度的非线性拟合能力。因为WOE和bad_rate一定是单调的,但是变量值却不一定。 关于WOE的深入思考可以看这篇文章 https://zhuanlan.zhihu.com/p/135856159
2、XGBOOST 的推导(主要是损失函数,泰勒公式,正则项),以及与RF/LGBM/GBDT的差异。另外决策树ID3,C4.5,CART还是得了解下。这两个基本是大多数风控团队的常用算法。数据集划分方法:开发集(训练、验证)和跨时间测试集。
答:XGB推导以及与GBDT区别:
关于机器学习算法准备这块可以看《百面机器学习》这本书,或者我之前写过推导算法的文章常用机器学习原理推导,上文中的算法都写到了。
3、特征工程:特征衍生(最好有一套熟悉衍生方案)、特征选择(可解释性,稳定性,预测能力,怎么万里挑百到百里挑十的过程)、特征分箱方