业务应用
taoKingRead
念念不忘,必有回响。
展开
-
风控业务中的信用与欺诈的定义区别
在互联网金融反欺诈领域,通过搭建模型,在自身已有的历史数据中挖掘出反欺诈规则或者评分是非常重要而又十分有效的手段。为了能最大限度地发挥数据的价值,在反欺诈实践中,整个过程可以从宏观上分为四步:问题定义、明确模型目标、挖掘数据价值以及线上预测。在这四步中,问题定义是从业务的角度来考虑反欺诈的范围和目标;线上预测则涉及大量的实时计算,常常需要一个强大的流式计算引擎以及建立在这基础上的规则系统。这两个步骤与数据挖掘的关系不大,并不是这篇文章的讨论重点。剩下的两步是我们关注的焦点,事实上,这两步又可以...原创 2020-10-10 20:01:37 · 3695 阅读 · 2 评论 -
风控业务-特征IV值和WOE值的计算原理和区别
我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选,比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的...原创 2020-08-11 20:02:42 · 10651 阅读 · 0 评论 -
风控业务-模型稳定性评价指标PSI
在风控领域的业务中,稳定性压倒一切,一套风控模型正式上线运行后往往需要很久(通常一年以上)才会被替换下线。如果模型不稳定,意味着模型不可控,对于业务本身而言就是一种不确定性风险,直接影响决策的合理性,这是不可接受的。在机器学习构建风控模型时,我们基于假设“历史样本分布等于未来样本分布”。因此,我们通常认为:模型或变量稳定 <=> 未来样本分布与历史样本分布之间的偏差小。 然而,实际中由于受到客群变化(互金市场用户群体变化快)、数据源采集变化(比如爬虫接口被...原创 2020-07-30 19:07:40 · 2554 阅读 · 1 评论