大数据风控模型靠谱吗？

最新推荐文章于 2024-09-02 02:54:35 发布

mishidemudong

最新推荐文章于 2024-09-02 02:54:35 发布

阅读量3.2k

点赞数

现在很多信贷公司斗宣称有自己的风控模型，并且使用的是传统风控不曾用到的数据、特征，所有业务都是自动化审批，那么这些模型到底靠不靠谱呢？

一个模型整出那么多变量，真的有必要吗？动辄强调自己的模型成千上万个特征，还特别强调是弱特征，而且整合了逻辑回归、贝叶斯统计、决策树、深度学习等，听起来是不是很厉害？而实际情况呢，只有内行人清楚。

为什么要用那么多变量，而不用传统信贷业务用使用的变量呢？

第一，得益于智能设备、传感器、计算资源，越来越多的数据被发现，被应用到信贷业务中。

第二，不知是庆幸还是可叹，中国相当一部分人是没有央行征信记录的，在这群人中又有相当一部分人没有互联网记录，相反地，这群人中的另一部分人虽然没有央行征信记录，但是有互联网记录，他们网购，玩虚拟社交，使用联网的app，使用智能手机，他们有借款需求，还有一部分人，他们有征信记录，但是银行的授信和审批流程满足不了他们的需求。所以互联网金融火了起来。

基于以上两点，宣称拥有大数据风控技术的信贷公司遍地开花，他们为银行排斥的人群提供服务，同时利用传统风控未曾注意到的数据来评估这群人的信用。因为没有传统征信数据中与信用相关的强特征，所以不得不从大批量弱相关的数据中提取很多很多的弱特征，进而构建所谓的风控模型。

这些风控模型很厉害吗？可能吧。

一家信贷公司若想构建这个一个模型，首先得有数据，假如模型中有1000个特征，并且使用logistic回归的话，那么样本怎么也得10000以上吧，也就是得有10000个以上的放款客户，假如每个客户放款1000的话，那就是放款1000万，如果每个客户放款10000的话，那就是1个亿。

且不说公司在初始阶段有没有这个能力，就算有，在没有客户之前，公司又是用什么模型来审批客户的呢？用公司对外宣称的大数据风控模型吗？

如果用的是宣称的大数据风控模型，那最初没有放款客户，哪来的用于构建模型的数据呢？

宣称全自动化审批，那最初没有模型的时候怎么实现自动审批的呢？

最初就有模型是吗？那最初的问题又来了，数据哪来的呢？

数据是对接的第三方？第三方数据什么样，共享到什么程度，数据源有哪些，内行人都很清楚。即便对接了第三方数据，也不可能有宣称的模型中那些弱特征涉及到的数据。

退一步讲，假设数据有了，而且数据很完美，公司宣称投入了大量的人力物力财力来构建模型，优化模型，宣称使用了上亿条数据，宣称有多少多少人在维护这个模型，听起来很牛对不对？那这个模型就很厉害吗？

但是啊，一件事情做起来难，不代表这件事情就厉害。模型使用那么多与信用弱相关的特征数据，不耗费大量计算资源都说不过去，那么多弱特征，我可能用一个负债率就把这些特征全灭掉了。

耗费了这么大的精力做的这么一个模型，图什么呢？放着强特征不用，非得费力不讨好地使用弱特征，最后模型还不一定有用，是为了证明自己的技术实力吗？是为了骗那些投资人吗？要知道的是，这些大数据当中是能提取出强特征数据的。

还有一点，这些公司里进行数据建模的都是算法工程师，而不是科研工作者，换句话讲，这些人都是使用已有的现成的算法来搭建模型，所以不同公司不同的模型间的好坏与使用的具体算法倒不是相关性最强的，而是从数据中提取的特征以及为这些特征配置的参数才能体现出模型的优劣。