模拟退火算法优化XGBoost实现信用卡欺诈检测(原创毕设+高分论文)

VIT19980106

已于 2024-07-12 17:08:05 修改

阅读量1.6k

点赞数 38

文章标签：模拟退火算法算法机器学习 python 人工智能

于 2024-07-11 13:45:46 首次发布

本文链接：https://blog.csdn.net/qq_42492056/article/details/140349511

版权

1. 摘要
针对信用卡欺诈这一金融行业面临的严峻挑战，提出了一种基于模拟退火算法优化的XGBoost（SA-XGBoost）模型。通过深入分析机器学习在信用卡欺诈检测中的基本原理和应用，本文重点讨论了逻辑回归、决策树、随机森林和GBDT等常用机器学习模型，评估了它们在特定场景下的性能和适用性。为了构建一个高效且可靠的欺诈检测模型，本文细致地执行了一系列数据预处理步骤，包括信用卡欺诈金额的分布探索、标签不平衡问题的解决、皮尔逊相关性分析，以及数据集的合理划分。
在提出的SA-XGBoost模型中，模拟退火算法被用于优化XGBoost模型的超参数，以提升模型在复杂数据上的预测性能。通过与传统机器学习模型的对比实验，SA-XGBoost在信用卡欺诈检测任务上展现了显著的性能提升，证实了模拟退火算法在寻找最优超参数方面的有效性和优越性。

2. 数据集介绍
本研究所用数据集来源于Kaggle，包含了详细的信用卡交易信息及对应的欺诈标注。该数据集最初由Andrea Dal Pozzolo等人在2015年IEEE计算智能学会研讨会上发表的论文《在不平衡分类中通过欠采样校准概率》中使用。如表和图所示：

特征字段	含义
Time	首次交易时间
Amount	交易金额
Class	欺诈标签
V1-V28	PCA处理后的相关变量

数据集详情

其中，“Time”变量记录了从首次交易开始的时间，“Amount”变量代表交易金额，“Class”变量标识了交易是否为欺诈（1表示欺诈，0表示非欺诈）。除此之外，数据集还包括了经过主成分分析（PCA）处理的变量（V1-V28），这些是从原始交易数据中提取的主要成分。

**3. 数据预处理**

3. 1 重复值处理
经检测确认本文信用卡欺诈数据集重复值的数量为1081，之后采用DataFrame.drop_duplicates()方法删除重复值，如图所示。重复值检测
处理后的重复值
3. 2 缺失值处理
下图可知，数据集并无缺失值，反映出本文数据集的完整性很高，说明在数据收集和处理阶段已经做到了高度的准确性和完整性。
在这里插入图片描述
3. 3 相关性分析
采用皮尔逊相关性分析，使用热力图的方式呈现变量之间的相关性，如图所示。可知，变量V13、V15、V22、V25以及V26与标签Class的相关性为0，即无线性相关性。

3. 4 数据集划分
选取40%的数据作为训练集可以为模型学习提供充分的样本，以便捕捉数据中的潜在规律。将30%的数据用作验证集，用于模型开发过程中的参数调整和配置优化，有助于寻找最佳模型参数设置。余下的30%数据作为测试集，在模型开发完成后用于评估模型的最终性能，确保评估反映了模型对未见数据的真实预测能力。通过这一细致的数据准备和划分过程，可构建出准确性高且泛化能力强的机器学习模型，有效进行信用卡欺诈检测。
数据集划分

4. 基于SA-XGBoost的信用卡欺诈检测模型
在金融领域，信用卡欺诈检测是一项至关重要的任务，其目标是识别和防止欺诈性交易，从而减少经济损失并保护消费者的财产安全。采用高效且准确的机器学习模型进行欺诈检测是提升防欺诈系统性能的关键。SA-XGBoost（模拟退火优化的XGBoost）模型是一种先进的集成学习方法，通过结合模拟退火算法的全局搜索能力和XGBoost模型的高效预测能力，为寻找最佳超参数提供了一种有效途径。针对信用卡欺诈检测任务的SA-XGBoost模型实现如下：
（1）定义问题和初始化参数
首先，明确优化的目标是提高信用卡欺诈检测的准确性。在XGBoost模型中，关键的可调参数包括：
max_depth（树的最大深度）：控制模型的复杂度和过拟合风险，设置搜索范围为
learning_rate（学习率）：影响模型训练速度及收敛性。
subsample（子样本比率）：用于控制每棵树随机采样的比例，以减少过拟合。
colsample_bytree（列采样比率）：每棵树的特征采样比率，用于增加模型的多样性。
eta（学习率）：控制每步更新的幅度，以防过度拟合。
gamma（最小损失减少）：用于控制树的进一步分裂。
scale_pos_weight：用于处理类别不平衡问题，增加少数类的影响力。
上述参数搜索范围如下所示：

tune_dic['max_depth']= [5,10,15,20,25]#树的最大深度
tune_dic['subsample']=[0.5,0.6,0.7,0.8,0.9,1.0]#在树中使用的训练实例的比例
tune_dic['colsample_bytree']= [0.5,0.6,0.7,0.8,0.9,1.0]#列(特征)的子样本比率
tune_dic['eta']= [0.01,0.05,0.10,0.20,0.30,0.40]#学习率
tune_dic['gamma']= [0.00,0.05,0.10,0.15,0.20]#分裂所需的最小损失函数减少值
tune_dic['scale_pos_weight']=[30,40,50,300,400,500,600,700]#正面/负面实例的相对权重

（2）模拟退火搜索
SA-XGBoost模型不仅利用了模拟退火算法的全局搜索能力来优化XGBoost参数，还确保了在处理复杂且动态变化的信用卡欺诈数据集时的高效性与准确性。这种方法为信用卡欺诈检测提供了一个强大的工具，有助于金融机构有效防范欺诈行为，保护消费者的财产安全。SA-XgBoost实现代码如图所示。
模拟退火算法
图中，T是模拟退火中用于控制接受较差解决方案概率的“温度”变量，best_params是用来存储找到的最佳超参数组合的字典，best_f_score是由任何参数组合实现的最高F-score，prev_f_score 是上一次迭代的F-score，prev_choice是上一次迭代的超参数组合，weights是一个列表，用于为每个超参数组合创建唯一的哈希值，hash_values是一个集合，用来跟踪已经访问过的超参数组合。
在主循环中，循环运行maxiter次迭代，执行模拟退火过程，在每次迭代中，它寻找一个新的未被访问过的超参数组合，cur_choice代表当前的超参数组合，由函数next_choice决定，如果组合是唯一的，则使用这些超参数训练模型，并计算F-score。
如果当前超参数组合的F-score比上一个好，它就成为新的prev_f_score，并将当前组合存储为prev_choice。如果当前的F-score还比best_f_score好，那么更新best_params和best_f_score，如果当前的F-score比上一个差，那么根据使用温度T和F-score变化计算的概率阈值进行决策。每5次迭代，温度T乘以0.85进行减少，这逐渐减少了接受较差解决方案的机会。
循环结束后，输出在模拟过程中找到的最佳超参数集。

5. 实验结果及分析
（1）随机森林实现
基于sklearn实现是随机森林，首先定义RandomForestClassifier分类器，然后使用fit方法训练模型，同时调用predict方法预测测试姐，最后使用F1 Score和recall score评估模型，随机森林实现具体代码如下图所示。
在这里插入图片描述

在这里插入图片描述
（2）决策树实现

在这里插入图片描述

（3）GBDT模型实现
基于sklearn实现GBDT模型，首先定义GradientBoostingClassifier分类器，设置树的数量为100，学习率为0.1，随机种子为123，然后使用fit在训练集训练模型，最后使用predict预测测试集，最后基于F1分数和召回率评估模型性能，
GBDT模型实现代码如下图所示。

在这里插入图片描述
（4）XgBoost模型实现

在这里插入图片描述
（5）结果对比

模型	F1-Score	召回率
随机森林	0.839	0.791
决策树	0.716	0.778
GBDT	0.669	0.631
XGBoost	0.831	0.778
SA-XGBoost	0.852	0.812

由表所示，列出的不同机器学习模型对比实验结果显示，SA-XGBoost模型在F1-Score和召回率两个性能指标上均表现最优。SA-XGBoost的F1-Score为0.852，相比于传统的XGBoost模型（0.831）提高了约2.5%。与随机森林（0.839）、决策树（0.716）和GBDT（0.669）相比，SA-XGBoost分别提高了约1.5%、约19.0%和约27.3%。SA-XGBoost在召回率上达到了0.812，相比于XGBoost的0.778提高了约4.4%。与随机森林（0.791）、决策树（0.778）和GBDT（0.631）相比，SA-XGBoost分别提高了约2.7%、约4.4%和约28.7%。

在这里插入图片描述