01 背景和问题
目前,模型开发的流程越来越规范化,通常可以分为业务分析、样本准备、特征工程、模型构建、模型评估及监控这几个步骤。其中,特征工程和模型构建在建模的整个流程中依然非常耗时,并且非常依赖于模型开发者对业务的理解及数据处理的能力。
在目前实际业务场景下,面临的最大的一个问题是,如何快速地构建起一个质量相对不错的模型,以适应业务的快速发展。传统的风控建模周期较长,通常要20天左右的时间才能达到上线的要求。其中,特征工程的耗时在整个建模过程中会占到大约60%的时间,且这个过程的挑战就是人工提取特征的复杂性和高时间耗费性。自动化特征工程能够对必要而繁琐的工作进行自动化处理,从而优化机器学习模型的构建和部署,这样模型的开发者就可以更多地关注其他重要步骤。另一方面,模型开发过程的耗时在整个建模过程中会占到大约30%的时间。这个过程的难点并不在于给出一个模型,而是在于同时比较多种模型甚至多种模型组合后,选出效果最佳的模型做主决策模型,其余的模型可以作为备用模型或者比较对象。这个过程如果用人工去实现,也会消耗非常多的时间,并且效果不一定最优。
基于这样的背景,融360推出的自动化特征工程和自动建模的方案,把建模过程中耗时最长的特征工程部分和模型开发部分抽象出了一套自动化工具。不仅集成了自动特征工程,还对建模过程中变量的筛选、建模调优、部署上线和模型监控进行了模块化的封装。该工具有如下优点:
① 大幅提升建模效率和标准化程度;
② 节约人力成本和时间成本;
③ 快速达到业务方要求;
④ 有利于尝试更多的模型方案和模型快速更新迭代。
通过自动化特征工程和自动建模方案后,模型从开发到上线的时间大幅减少,可以缩短至5天左右,不仅简化了开发流程,提升了开发效率,准确率方面也保持较高水准。
--
02 自动化特征工程
首先,我们先来看一下手动特征工程是如何完成特征工程这个过程的。人工构建特征工程主要依赖领域知识来构建特征,一次只能产生一个特征,这是一个繁琐,费时又易出错的过程。此外,每次进行特征工程的代码是针对特定业务和特定场景的。当我们面对新的需求、新的数据源时,我们需要重构特征,重新进行开发,耗时长效率低。
因此,特征工程若要能够实现自动化和标准化,其数据在结构上必须要具有一定的相似性和共通性。根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:
①