原创|模型解释性实战

最新推荐文章于 2024-08-07 20:59:55 发布

Hexasino

最新推荐文章于 2024-08-07 20:59:55 发布

阅读量556

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/Hexasino/article/details/108221414

版权

本文探讨了金融领域的模型解释性，特别是机器学习在交易监测中的应用。通过对跨境交易数据的分析，文章比较了线性回归、决策树、XGBoost和LightGBM等模型，并选择了LightGBM作为最佳模型。通过特征重要性、SHAP值、部分依赖图（PDP）和LIME等方法，解释了模型中特征如何影响预测结果。最后，强调了模型解释性在确保业务决策一致性和优化模型的重要性。

摘要由CSDN通过智能技术生成

金融领域一直是计算机算法革新发展的前沿领域，机器学习正在对金融服务业产生重大影响，但前提是了解机器学习算法的优势和局限性，以及适合在金融领域发挥作用的场景。当我们在金融业务中使用机器学习算法，期望通过可度量的方法对模型结果进行分析，以对算法进行优化，以及对业务进行方向性的指导，确保模型与要解决的业务问题保持一致。即模型解释性分析。模型的解释性分析可帮助模型开发人员了解并解释模型中包含和未包含的特征因素，以及特征如何影响模型结果。

本文以跨境交易中的交易类型监测为例，通过分析交易样本数据，选择适当模型，并多维度对模型的结果进行解释性分析。

模型解释性

广义上，模型的解释性分析目的是全局定义特征对模型的影响，同时定义单个特征对模型的个性化影响；更好的理解模型行为，更好的进行相应的业务决策；

通常对机器学习模型分为以下两大类：

“白盒”模型：

如线性、Logistic 回归模型，预测能力较弱，但是简单易理解，例如，线性关系如房价与房屋面积、位置、城市的相关性；

如决策树是目前业内公认可解释性最好的非线性机器学习算法，模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据，决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用；

白盒模型特征明确，逻辑简单，本身具备可解释性。

“黑盒”模型：

使用‘复杂’的机器学习算法训练数据，输入特征进过组合变换，维度上升等特征工程步骤，需要分析及调整数据与模型，确保模型结果与要解决的问题保持一致；然而这些模型的内部机制难以理解，也无法估计每个特征对模型预测结果的重要性以解释模型结果与输入的特征属性潜在的关联关系，更无法直接理解不同特征之间如何相互工作（数据的相关性不等价于因果关系）；

针对本例中的交易数据，通过分析数据样本，并对比多组算法（训练& 预测结果分析），以实现有效的交易类型判别；

交易监测数据集

跨境交易中，用户需填报当笔交易的交易类型（BOP 国标分类），但在很多场景，客户可能将交易类型填报错误，已达到非法获利的可能，业务上，可以通过大量的历史交易数据进行机器学习模型拟合，判别交易类型，结合业务经验及历史风险事件的总结（规则），形成交易监测规则引擎，实现完备的风险管控。

数据分析

基本特征选取

分析跨境交易相关数据，分析数据潜在关联，数据源为交易及客户信息表，列数合计约220 ，分析数据潜在关联，去除其中客户信息标识列（如客户号，账户及账户关联标识列）、去除空值率过高列、系统相关记录列、重复列、及与明显与交易无业务相关列，人工（根据业务经验）挑选出有业务意义的特征，约 45 列。

统计特征

为更好的拟合交易类型模型预测，进一步扩充时间与空间维度交易统计特征，如：相应period （年 / 半年 / 季度 / 月 / 周）内客户交易数及交易金额总数。

特征选择

根据人工选择及统计特征，通过算法模型自动选择最优特征数，如交易渠道、客户经营范围、对公客户所属行业、客户类型等等。进一步分析人工初选的特征属性后可知：离散型特征占比约90% ；预测分类类别存在严

最低0.47元/天解锁文章

Hexasino

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
原创|模型解释性实战

金融领域一直是计算机算法革新发展的前沿领域，机器学习正在对金融服务业产生重大影响，但前提是了解机器学习算法的优势和局限性，以及适合在金融领域发挥作用的场景。当我们在金融业务中使用机器学习算法，期望通过可度量的方法对模型结果进行分析，以对算法进行优化，以及对业务进行方向性的指导，确保模型与要解决的业务问题保持一致。即模型解释性分析。模型的解释性分析可帮助模型开发人员了解并解释模型中包含和未包含的特征因素，以及特征如何影响模型结果。本文以跨境交易中的交易类型监测为例，通过分析交易样本数据，选择适当模型，并多
复制链接

扫一扫