信说风控｜减少“噪声”，数据预处理如何让模型更聪明

https://www.sohu.com/a/348746236_100169150

前言：模型真正的作用绝不在于对历史数据的拟合，而在于对未来的预测。模型能够发挥作用的一个基本假设是“历史会重现”，即历史数据中隐含的事物发展规律会在未来继续发挥作用，这就要求建模人员在训练模型时要确保模型从历史数据中学到的是“规律”，而不是随机扰动的“噪声”，这也是信用算力建模人员不懈追求的目标。

——信用算力风控团队

关于数据有一种说法：数据决定分析结果的上限，而不同的算法只是决定了逼近上限的程度。

对于数据分析来说，到底有多少种算法，哪种算法最优秀？

没有人可以给出确定的答案，但所有人都不会否认，没有一种算法可以完美应对所有的问题。XGBoost、SVM、Random Forest等算法的一般性能较好，但也不是任何条件下都是最优选择。

当数据规模或数据维度较小的时候，不同的算法性能往往有较大差异，但当数据规模和数据维度增大时，性能通常都会有所提升，不同算法之间的统计功效差异也会逐步减小。也就是说，在大数据条件下，算法的差距被缩小了，这就是大数据的“魔力”。

而大数据的产物——大数据风控，则是在互联网的背景下，对于传统风控的一次“附魔”。

大数据风控一般是指快速收集海量与风控强相关或弱相关的数据，利用“大数据”，建立科学的评分模型，对借款人进行精准的风险评估及坏账率预测，从而降低坏账损失，并对用户资质进行分层，输出风险提示。

在信用算力风控团队看来，这其中的核心便是快速收集海量有价值的数据。“大数据风控并非改变了传统风控，而是极大地丰富了传统风控的数据维度。”

作为信用服务解决方案提供商，信用算力首先还是利用信用属性强的金融数据，帮助机构判断借款人的还款能力和还款意愿，然后再利用信用属性相对较弱的浏览行为、设备使用行为等数据进行补充，借助先进的机器学习算法和模型来综合判断各类强弱变量特征和信用风险之间的关系。

但是，原始数据往往会存在误差与异常，也就是信用算力建模团队口中的“噪声”，为了减少“噪声”对模型预测效果的影响，在使用已收集数据训练模型之前，信用算力往往需要先对数据进行预处理。主要包括缺失值、异常值以及特征工程等方面。

01缺失值处理，保持数据真实完整

缺失值产生的原因较多，包括新增变量导致的变量上线之前数据缺失、计算错误、数据未收集等。除了对计算错误的数据需要重新计算以外，对缺失数据的处理方式通常包括：删除有缺失或缺失比例较高的观测、删除有缺失或缺失比例较高的变量、用变量的均值或中位数填充缺失值等。

不同的缺失值处理方法各有利弊，删除观测或变量会导致未缺失的观测也会被删除，从而导致信息的损失，好处在于保留下来的数据是完全真实的；用特定数值填充缺失值，虽然不会造成信息损失，但是当缺失率较高时，用特定数值填充缺失值会导致变量的区分能力显著下降。

因此，信用算力风控团队通常的做法是：对于缺失比例较高（如缺失率大于75%）的观测进行删除；对于缺失比例较高的变量进行删除或将缺失值作为该变量的单独一类取值进行分析；对于缺失比例较低的观测或变量，则采用中位数或平均值进行填充。

02异常值处理，剔除特殊事件影响

异常值产生的原因包括：计算错误、特殊事件扰动以及厚尾分布产生的异常值等，异常值不能代表事件的“规律性”，因此在训练模型之前需要对异常值进行处理。

当然，不同的模型或算法受异常值影响的程度是不同的，比如决策树模型（如CART、GBDT、XGBOOST、Lightgbm等）受异常值的影响较小，而逻辑回归、线性回归模型等线性模型受异常值的影响较大，因此在正式训练模型之前一般都需要对异常值进行处理。

首选需要对异常值进行识别，即哪些值可以被认为是异常值，通常是基于正态分布的3σ原则和切比雪夫不等式来判定异常值。在信用算力风控的做法是对于计算错误的需要重新计算，对于其他情形的异常值一般采用两端拉平的方式进行处理，比如分别用1%和99%分位点的值代替小于1%和大于99%的变量取值。

03特征工程，原始数据特征提取

收集了基本指标数据之后，并不意味着就可以马上开始建模，因为单个基本指标通常只从某个方面反映了与目标变量之间的关系信息，通常对目标变量的预测能力不会太好。

因此，需要对基本变量之间进行函数变换或对多条观测进行聚合，甚至需要对聚合的结果再次进行各类函数变换，从而衍生出更多维度的变量，这一过程称为特征工程，其目的是最大限度地从原始数据中提取特征以供算法和模型使用。在模型算法相对标准化的情况下，特征工程就变得尤为重要，在某种程度上决定了最终模型效果的优劣。

当完成数据预处理之后，就可以用处理好的数据训练模型了。为了避免模型出现过拟合或欠拟合情况，信用算力风控团队会将所有建模数据分成训练集、测试集和验证集，分别用来训练模型参数、筛选出最优模型、评估最优模型的一般统计功效。

信用算力风控团队认为：建模过程是在一定的理论指导下开展的，具有明显的“科学”性。但建模也是一个需要凭经验和直觉选择、调整模型的仁者见仁智者见智的过程，具有明显的“艺术”性，并没有一个精确的数学公式来判定应该选哪个模型。相同的建模数据和模型算法，不同的建模人员训练出的模型效果可能会有天壤之别。

信用算力Fin-Cloud信贷云平台已经能够实现从数据清洗、建模、模型线上部署、建模报告输出等全自动化的建模流程。通过知识图谱分析、单变量分析、文本挖掘等手段挖掘平台海量数据，从海量指标中挑选出与坏账风险有较强相关性的指标。随后，信用算力风控团队会通过XGBOOST、随机森林、逻辑回归、K-fold、Stacking等机器学习算法计算客户逾期的综合评分，最终选择的模型通常会具有较高的区分能力和稳定性，极大适应了快速变化的市场环境和业务方对模型的需求。

目前，信用算力日均API进件量达超万，每笔进件量服务查询指标数达10万，日均服务调用量突破50万，可以有效解决城商行、农商行在开展个人消费贷款和个人经营贷款过程中遇到的不良贷款率居高不下的问题，帮助合作机构快速抢占市场，寻求外部流量、技术合作，以快速完成产品创新和风控优化。