原理 + 代码：手把手教你使用 Python 实战反欺诈模型

最新推荐文章于 2022-07-09 15:43:39 发布

冠希01

最新推荐文章于 2022-07-09 15:43:39 发布

阅读量265

点赞数

文章标签： python 决策树算法机器学习人工智能

本文链接：https://blog.csdn.net/qq_52583721/article/details/109781997

版权

三本点击上方“ 早起Python ”，关注并“ 星标 ”

每日接收Python干货！

本文含 6192 字， 15 图表截屏

建议阅读 20 分钟

本文将基于不平衡数据，使用Python进行反欺诈模型数据分析实战，模拟分类预测模型中因变量分类出现不平衡时该如何解决，具体的案例应用场景除反欺诈外，还有客户违约和疾病检测等。只要是因变量中各分类占比悬殊，就可对其使用一定的采样方法，以达到除模型调优外的精度提升。主要将分为两个部分：

原理介绍
Python实战

原理介绍

与其花大量的时间对建好的模型进行各种调优操作，不如在一开始就对源数据进行系统而严谨的处理。而数据处理背后的算法原理又常是理解代码的支撑。所以本节将详细介绍不平衡采样的多种方法。

在以往的学习中，数据大多是对称分布的，就像下图一样，即正负样本的数量相当。在这里插入图片描述
这样可以更好的把注意力集中在特定的算法上，而不被其他问题干扰。以分离算法为例，它的目标是尝试学习出一个能够分辨二者的分离器（分类器）。根据不同的数学、统计或几何假设，达成这一目标的方法很多：逻辑回归，岭回归，决策树，和各种聚类算法等。

但当我们开始面对真实的、未经加工过的数据时，很快就会发现这些数据要嘈杂且不平衡得多。真实数据看起来更像是如下图般毫无规律且零散。对于不平衡类的研究通常认为 “不平衡” 意味着少数类只占 10% ~ 20%。但其实这已经算好的了，在现实中的许多例子会更加的不平衡（1~2%），如规划中的客户信用卡欺诈率，重大疾病感染率等。就像下图一样在这里插入图片描述

如果我们拿到像上图那样的数据，哪怕经过了清洗，已经非常整洁了，之后把它们直接丢进逻辑回归或者决策树和神经网络模型里面的话，效果一定会见得好吗？。以根据患者体征来预测其得某种罕见病为例：可能模型在预测该患者不得病上特准，毕竟不得病的数据占到了98%，那把剩下的得病的那 2% 也都预测成了不得病的情况下模型的整体准确度还是非常高…但整体准确度高并不代表模型在现实情况就能有相同的优良表现，所以最好还是能够拿到 1:1 的数据，这样模型预测出来的结果才最可靠。

所以对于这类数据，常见而有效的处理方式有基本的数据处理、调整样本权重与使用模型等三类。在这里插入图片描述

本文将专注于从数据处理的角度来解决数据不平衡问题，后续推文会涉及使用模型来处理。在这里插入图片描述

注意事项：

评估指标：使用精确度（Precise Rate）、召回率（Recall Rate）、Fmeasure或ROC曲线、准确度召回曲线（precision-recall curve）；不要使用准确度（Accurate Rate）

不要使用模型给出的标签，而是要概率估计；得到概率估计之后

最低0.47元/天解锁文章

冠希01

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
原理 + 代码：手把手教你使用 Python 实战反欺诈模型

三本点击上方“ 早起Python ”，关注并“ 星标 ”每日接收Python干货！本文含 6192 字， 15 图表截屏建议阅读 20 分钟本文将基于不平衡数据，使用Python进行反欺诈模型数据分析实战，模拟分类预测模型中因变量分类出现不平衡时该如何解决，具体的案例应用场景除反欺诈外，还有客户违约和疾病检测等。只要是因变量中各分类占比悬殊，就可对其使用一定的采样方法，以达到除模型调优外的精度提升。主要将分为两个部分：原理介绍Python实战原理介绍与其花大量的时间对建好的
复制链接

扫一扫