原创|模型解释性实战

金融领域一直是计算机算法革新发展的前沿领域,机器学习正在对金融服务业产生重大影响,但前提是了解机器学习算法的优势和局限性,以及适合在金融领域发挥作用的场景。当我们在金融业务中使用机器学习算法,期望通过可度量的方法对模型结果进行分析,以对算法进行优化,以及对业务进行方向性的指导,确保模型与要解决的业务问题保持一致。即模型解释性分析。模型的解释性分析可帮助模型开发人员了解并解释模型中包含和未包含的特征因素,以及特征如何影响模型结果。

本文以跨境交易中的交易类型监测为例,通过分析交易样本数据,选择适当模型,并多维度对模型的结果进行解释性分析。

模型解释性

广义上,模型的解释性分析目的是全局定义特征对模型的影响,同时定义单个特征对模型的个性化影响;更好的理解模型行为,更好的进行相应的业务决策;

通常对机器学习模型分为以下两大类:

“白盒”模型:

如线性、Logistic 回归模型,预测能力较弱,但是简单易理解,例如,线性关系如房价与房屋面积、位置、城市的相关性;

如决策树是目前业内公认可解释性最好的非线性机器学习算法,模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据,决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用;

白盒模型特征明确,逻辑简单,本身具备可解释性。

“黑盒”模型:

使用‘复杂’的机器学习算法训练数据,输入特征进过组合变换,维度上升等特征工程步骤,需要分析及调整数据与模型,确保模型结果与要解决的问题保持一致;然而这些模型的内部机制难以理解,也无法估计每个特征对模型预测结果的重要性以解释模型结果与输入的特征属性潜在的关联关系,更无法直接理解不同特征之间如何相互工作(数据的相关性不等价于因果关系);

针对本例中的交易数据,通过分析数据样本,并对比多组算法(训练& 预测结果分析),以实现有效的交易类型判别;

交易监测数据集

跨境交易中,用户需填报当笔交易的交易类型(BOP 国标分类),但在很多场景,客户可能将交易类型填报错误,已达到非法获利的可能,业务上,可以通过大量的历史交易数据进行机器学习模型拟合,判别交易类型,结合业务经验及历史风险事件的总结(规则),形成交易监测规则引擎,实现完备的风险管控。

数据分析

基本特征选取

分析跨境交易相关数据,分析数据潜在关联,数据源为交易及客户信息表,列数合计约220 ,分析数据潜在关联,去除其中客户信息标识列(如客户号,账户及账户关联标识列)、去除空值率过高列、系统相关记录列、重复列、及与明显与交易无业务相关列,人工(根据业务经验)挑选出有业务意义的特征,约 45 列。

统计特征

为更好的拟合交易类型模型预测,进一步扩充时间与空间维度交易统计特征,如:相应period (年 / 半年 / 季度 / 月 / 周)内客户交易数及交易金额总数。

特征选择

根据人工选择及统计特征,通过算法模型自动选择最优特征数,如交易渠道、客户经营范围、对公客户所属行业、客户类型等等。进一步分析人工初选的特征属性后可知:离散型特征占比约90% ;预测分类类别存在严

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值