01
同盾科技
同盾科技-风控模型面试经历
1.用几句话简单介绍逻辑回归,包括它的原理和如何实现
2.对集成树模型的理解
3.kmeans的原理是什么,如何确定k值
4.介绍一些异常检测的算法,比如孤立森林等
5.介绍一些半监督的算法
6.介绍一下CNN和MLP的区别,包括它们的网络结构和优势
7.简单介绍一下Transformer以及它的网络结构
8.在训练网络的过程中,如果遇到梯度消失或梯度爆炸的问题,应该如何解决
9.在训练网络的过程中,使用过哪些优化器,它们的区别是什么
10.如何解决过拟合的问题
11.评估模型的时候,使用的指标是什么,如果正负样本数量差距大,应该使用什么指标
12.在做特征工程的时候,使用过的方法是什么,对于类别特征应该使用什么编码
13.一道leetcode的简单题,描述其时间复杂度
02
风控面试问题
1.使用过的三方数据,效果如何。
回答:黑名单类包括同盾、朴道、汇法网
征信类:百行
运营商:中诚信
公安不良:百融
2.日常工作的工具和算法有哪些。多说一些,但要有相关经验。哪些特征你认为比较有用
回答:最近一笔贷款距现在的时间间隔。近12个月无逾期个人消费贷款本月实还款最大、最近6个月内贷款审批次数、信用卡审批查询次数。
3.贷前贷中贷后看重哪些指标?策略看重哪些指标?例如过件率,违约率,支取率等。
我主要做贷前同处代逾、Vintage逾期率,贷后看回收率、迁徙率、资产占比逾期率、不良率、坏账率
4.冷启动怎么做?专家规则+反欺诈+三方数据/评分
5.反欺诈怎么做?可以从核人核借贷意图,模型+策略的方法来描述
回答:欺诈的类型有第一方、第二方、第三方欺诈第一方欺诈指利用真实信息申请贷款,可以理解为个人欺诈:第二方欺诈指内外勾结骗贷:第三方欺诈则为中介黑产欺诈。
模型的话可以谈一些无监督学习算法,比如孤立森林以及异常检测的其它算法策略的话主要从集中性,异常性,稳定性,结合各个维度(设备,位置,行为等) 构造各类反欺诈策略。
集中性:比如一定时间内,同一个设备上出现的手机号数量超过多少就预警
异常性:异常性指的是该客户和正常客户的区分性例如设备是伪造过的设备,ip为代理ip,gps是伪造的地址位置,客户在一分钟之内操作完所有流程。
稳定性:稳定性指的是客户与自身经常发生的行为对比。例如客户本次申请贷款的位置在厂东,但是客户之前从来没有买东西到广东。线下防范渠道欺诈,线上防范中介欺诈。
6.定价和额度策略怎么做。可以从政策、风险收入负债去描述
7.除了工作内容,平时会去了解哪些知识来提高自
对未来的职业规划。自我评价。可以从执行力,解决问题能力,专业能力,抗压力,沟通合作,领导,组织等等去聊。
8.自身优缺点。
线下场景商家用户交易风险怎么识别?
风险有刷单、洗钱、羊毛党获利、商家欺诈等。
识别方法有:
1.数据分析:收集分析交易数据,交易金额、频率、地点等,发现异常交易模式或风险信号。商家背景调查:查商家的注册信息、营业执照经营历史等,评估信誉和可靠性。
2.用户行为分析:看用户的交易行为,购买习惯频率、金额等,检测欺诈行为或不寻常的交易模式。
3.风险评分模型:建风险评分模型,分析评估商家和用户的数据,给风险评分,判断交易风险高低。
做过用户分层项目没,选啥特征,怎么选的?
做过。选特征和分层方式时,用了这些方法:
1.特征选择:对用户数据做探索性分析和统计分析,选与业务目标和用户行为相关的特征。常用的特征有用户消费金额、购买频率、地理位置、活跃度等。
2.数据挖掘技术:用聚类分析、主成分分析等数据挖掘技术,分析选定的特征,识别相似行为模式的用户群体。
3.业务需求: 根据业务需求和目标,选适合的分层方式。可以是基于用户价值、行为模式、兴趣偏好等进行分层,满足不同用户群体的个性化需求。
03
风控面经问题
面试风控岗位业务问题
1.业务了解:场景、产品、客群,都是啥?
2.需求明确:解决什么业务问题? 3Y定义是啥?Vintage与滚动率计算方法?欺风险与信用风险差异?
3.样本抽取:样本表现不足怎么办? 时间区间、客群、策略变化怎么应对?
4数据理解:哪种特征效果好? 数据挖掘怎么做?
5.模型验证·KS/AUC的务含义? GINI和GINKS差大代表啥?
6.模型验证:拒绝推断是啥? 为啥要做?
7.模型应用: swap-in/out分析是啥? 模型分cutoff怎么设?
8.模型应用:非LR模型结果为啥要矫正?
9.模型监控:模型分偏移是不是模型失效?
10.模型迭代:什么时候需要迭代模型?
算法与数据挖掘问题
1.技能了解:用过哪些算法?熟悉程度?用在哪些场景?
2.算法基础:决策树/LR/XGB/Lgbm/随机森林等算法逻辑讲解
3.算法对比:不同算法特点,优劣势:比如: LR与XGB
4.数据处理:WOE分箱的目的与原则
5.数据衍生:常见衍生方式(时间、频率金额、业务含义、常规统计、差异和波动、对比)
6.数据筛选: IV、相关系数、稳定性、CSI逻辑回归显著性、ks、xgb(gain cover)
7.模型训练:参数含义与调参优先级
8.模型训练:模型融合怎么做?
9.模型验证:跨时间、跨样本验证怎么做?
10.模型应用: 评分卡的刻度与实施?
岗位技能要求
1 .深入了解贷前贷中流程 ,熟悉贷前策略 ,额度授信和风险定价的相关流程。
2 .掌握vintage的计算逻辑以及相对应的数据分析
3 .掌握蒙特卡洛模拟和评分卡的应用
4 .熟练使用sql ,python进行相关数据分析
信贷风控模型体系每个阶段的模型策略体系
1. 规则主导,模型辅助
假设现在公司去海外,结合本地商超做互联网金融的贷款业务,你是风控的负责人,怎么做?在产品无表现期,起步阶段,模型是无能为力的。只能去找优质客群:使用信用卡支付客群,高消费客群购买某高级品类客群,疑似有房客群等等。此时的风控,是基于人群的风控,开通白名单。之后又衍生出基于消费场景的风控,如医美,宠物,装修等。如果你连合作伙伴都没有,只是自己胆识过太小比如直接用芝麻信用分,模型团队都不需要了,重点雇佣催收人员。你敢借,我敢放,流水直接跑起来。
2.模型主导,策略辅助随着样本丰富,老板要求你扩大规模,减少调用外部数据的成本。你作为风控负责人,盘了下手上的牌,决定把本公司数据体系和模型体系搞好。数据越多越好。把用户手机上的数据能捞就捞,成为了不少公司宝贵的数据资产,也是各大算法工程师能吃饭的家伙。模型往效果和可解释性方向发展,对应算法是XGB和LR。业务主要依赖模型判断。因为专业的策略人才是很少的,相反模型算是一个标准化的方案。很多银行会是这种做法。
3.策略主导,模型辅助随着产品发展,第三方数据源不断接入(也是联邦学习主要应用于信贷的原因),模型团队搭建完成。你发现模型越来越多了,业务要求模型效果更精准又要可解释。这个时候你决定,让模型充当策略工具,模型不追求可解释性,策略为主,让策略决策可解释。这类体系的特点就是策略做了很多分群模型用作最后的保障。
根据以上可以判断你公司的算法和策略所处的阶段,进而判断你所做的工作,能影响大盘的百分比是多少。