策略规则常见10大应用问题

最新推荐文章于 2024-01-13 18:50:13 发布

金科应用研院

最新推荐文章于 2024-01-13 18:50:13 发布

阅读量330

点赞数

分类专栏：互联网金融风控策略风险控制文章标签：人工智能

本文链接：https://blog.csdn.net/BiAnTi/article/details/125990101

版权

互联网金融同时被 3 个专栏收录

70 篇文章 18 订阅

订阅专栏

风控策略

65 篇文章 24 订阅

订阅专栏

风险控制

28 篇文章 3 订阅

订阅专栏

答疑：Devin老师

编辑：Joey

近期收到同学们在学习策略或工作应用中遇到的不少业务问题，今天小篇统一整理了一下，分享给大家。我们讲师也是结合实际业务场景的经验，给了同学们细心答复。大家可以看看有没有自己遇到的相似问题？关注【金科应用研院】回复“CSDN”领取风控资料礼包。

课程干货回顾：知识星球-第6期大咖直播课：风控策略规则开发与应用

Q：对不同的分析场景，在实践中一般会有多少条策略规则？

A：金融不同业务场景的贷前策略规则有一定区别，比如对于不同金融机构（银行、消金、小贷、保险等）、不同产品（个人、企业）等。但一般情况下大约在30条~100条的范围。

银行的策略规则一般不会很多，因为客户群体本身大多都是优质用户，而对于消金公司，客户群体资质会差一点，策略规则数量稍多些。

一般从信息核验类（要素核验、黑名单核验等），加上基本信息、人行征信数据的策略规则加起来有几十条。当然，由于各家机构业务不同，以及风控思路不同，策略数量有时差别也会挺大，但大体情况如上所述。

Q：策略特征一般是怎么选择的？在实践中可能可供选择的特征有几十上百个甚至更多，策略人员怎么选择出来十几个用来建立策略和分析？

A：在实际业务场景中策略规则有很多，具体选择建议是将所有线上应用的规则都引入，当然有一类规则要除外，即“核验类规则”，比如：

要素核验（二要素、三要素、四要素等）；

黑名单核验（司法黑名单、征信黑名单等）；

产品范围（省市区域等）；

这些策略规则是强性规则，不需要矩阵分析，如果用户命中直接拒绝就可以了。

此外其他规则可以采用决策矩阵，如果为了保证风控的精准度，可以将其余所有规则引入。但太多了也会造成监测调整维护起来较麻烦，因此可以进行规则筛选，这时需要考虑规则的效果，选择区分度较好的、信息维度有代表性的、业务类别有意义的、规则字段相关性比较弱的、规则字段分布稳定性较好的等。

Q：策略规则选用的时候会有要求么，比如较强的业务含义？

A：策略规则的选用是比较看重业务含义的，因为业务维度越多，说明识别用户风险的维度也就越多，从风控的思想来讲，这是非常重要的。但是，除了业务含义，策略规则字段的效果也是十分重要的，比如：策略规则的准确性、稳定性、解释性等，要选择区分度较好的、稳定性较好的等，这样才能保证决策矩阵的准确性能和稳定性能。

Q：在课程中提到模型区分度一般比策略规则区分度好，在实践中，最终等级因为规则策略影响的比例大概多少？

A：影响比例这个是无法界定的，也不需要去关注。对于风控来讲，将策略与模型的体系架构好了实现风控准确度提升的目的，这才是重点。所谓模型区分度一般比策略规则区分度要好，意思某个模型分数比某个策略规则的区分效果要好很多，理由是：

一方面是模型是由多个变量训练拟合而成的，包含的信息维度较多；

另一方面是最终分数单调性的连续分布，可以较好的区分出响应的比例；而对于某条规则，在这重要的两个方面是很难和模型相比的。

当然，一个模型和一套策略多个规则集相比，效果是不好衡量的，也没有太大意义，而且这和很多实际业务需求有关。无论怎样，策略模块的规则类别越多、每个规则的区分度越好，那策略的性能越好，同对模型也是如此，这样构建出的决策矩阵在实际应用中的综合效果会很好的，简单点说，这也是风控的思想。

Q：针对分区度高的规则或变量，如果命中总样本量较少（少于30）时，怎么处理？还要做成规则吗？

A：区分度高的规则或变量命中总样本的数量少，比如只有0.5%，一般情况下不是优先考虑，主要原因并不在于命中数量太少，而是担心这样的规则在后期不太稳定，波动的可能性较大，如果其他可选的规则较多，或者非常想用这条规则的话，也可以考虑的，只是要特别测试下这条规则在不同时间窗口样本下的稳定性，如果表现稳定也是可以采用的，当然还要分析下是否被其他规则覆盖、字段调用的成本等。

这个问题回归到实际业务中，其实是很少出现的情况，变量的区分度很好，要是好的话各个区间的分布有明显的差异，不仅仅局限在刚说的这种命中很少的情况，若某个区间命中很少，可以适当往前扩大点区间，假如不便于扩展而出现了问题描述的情况，那就是按照前边说的思路处理。

Q：考虑数据成本和策略效果，怎样对规则中使用数据源的先后顺序进行排序？

A：

先信息核验类后信用风险类；
先欺诈识别类，后信用评估类；
先价格较低类，后价格较高类；
先特征标签类，后模型分数类；
先数据内部类，后数据外部类；
先区分较好类，后区分较弱类…

这些原则不是绝对的，但都是考虑的原则，在实际部署时，在同等情况下重点排序，此外还要考虑规则之间的覆盖情况。

Q：原样本和新样本取数时间范围一般各是多久？

A：在课程中原样本指的是开发样本，新样本指的是测试样本，从时间窗划分，原样本在前，新样本在后。一般情况下，建议开发样本的时间窗最好取3_{6个月，测试样本的时间窗最好取1}3个月，具体也得看实际业务情况，选取的时间窗口数据能否满足开发的需求，这是很重要的。

此外，开发样本与测试样本时间窗不要有重叠，且间隔时间最好是相邻。举个例子，开发样本1_{3月，测试样本4}5月。

Q：拒绝规则按照命中个数，稳定性怎么样，后续怎么迭代

A：可以采用PSI指标来监测规则的稳定性情况，优先监测规则区间的稳定性结果，然后关注变量本身多个区间的稳定性结果，这个工作是可以一次性出结果的，只是重点看规则区间的波动情况。

如果波动性比较大，先采用阈值调整，一般是缩小占比，以保证不同时间窗样本下比较稳定，区分度还是保持好的。如果阈值不好调整，那就需要将此规则直接弃用，或者与别的规则进行组合使用。

Q：几个拒绝规则的变量的IV为0.2左右，且变量也不是黑名单类的强拒绝规则，那这样把这几个拒绝规则做或运算的话，拒绝的客户量就比较高？

A：在规则开发时，优先对单一规则进行通过率与区分度分析，但在部署之前，务必要对所有规则的决策效果进行整体分析，以保证最终对业务影响的通过率和坏账率符合预期。因此，在开发出多个规则之后不会直接上线，还会做整体规则的应用分析，如果得到的通过率满足预期可考虑部署上线；若得到的通过率较低或较高，那需要对某些区分度较好的规则进行阈值调整，在保证坏账表现合理的情况下，适当放宽一点拒绝阈值。

Q：如果规则的首逾7天指标区分度高，但首逾30天逾期率区分度低，这种该怎么处理？

A：这是由于目标变量定义口径不同，使得目标变量的分布存在很大差异，规则的区分度自然也很容易变低，但根据这种情况来说规则效果变差的话，是不太合理的，开发某条规则，是定义好了目标才进行划分阈值确定规则的，既然是确定这条规则，说明区分度是比较好的，这和目标逾期几天没有什么关系的。

如果目标定义又发生了变化，那规则自然也得重新开发，对应的阈值一般也就发生了变化。因此，问题描述的情况从客观角度说，是不存在的。要理解一点，规则是定义好目标才开发的，而不是开发好规则再去变化目标定义的，这不是随便可以双向变化的，而是一个单向的流程机制。

如果你喜欢、想要看更多的干货类型的文章，可以把【金科应用研院】设为星标🌟，顺便转发分享～
在这里插入图片描述