iforest(孤立森林)来预测信用卡欺诈_iforest (isolation forest)孤立森林在交易上的应用-CSDN博客

本文链接：https://blog.csdn.net/u010569893/article/details/134738148

本文介绍了使用Kaggle信用卡欺诈检测数据集，通过IsolationForest算法进行异常检测，探讨了数据的不平衡性以及如何通过模型预测和TopN策略评估模型性能。结果显示，尽管数据极不平衡，孤立森林模型在识别欺诈交易方面有一定效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、数据集介绍

数据还是使用信用卡的数据，数据来自于kaggle上的一个信用卡欺诈检测比赛，数据质量高，正负样本比例非常悬殊，很典型的异常检测数据集，在这个数据集上来测试一下各种异常检测手段的效果。当然，可能换个数据集结果就会有很大不同，结果仅供参考。

信用卡欺诈是指故意使用伪造、作废的信用卡，冒用他人的信用卡骗取财物，或用本人信用卡进行恶意透支的行为,信用卡欺诈形式分为3种：失卡冒用、假冒申请、伪造信用卡。欺诈案件中，有60%以上是伪造信用卡诈骗，其特点是团伙性质，从盗取卡资料、制造假卡、贩卖假卡，到用假卡作案，牟取暴利。而信用卡欺诈检测是银行减少损失的重要手段。

该数据集包含欧洲持卡人于 2013 年 9 月通过信用卡进行的交易信息。此数据集显示的是两天内发生的交易，在 284807 笔交易中，存在 492 起欺诈，数据集高度不平衡，正类（欺诈）仅占所有交易的 0.172%。原数据集已做脱敏处理和PCA处理，匿名变量V1， V2， …V28 是 PCA 获得的主成分，唯一未经过 PCA 处理的变量是 Time 和 Amount。Time 是每笔交易与数据集中第一笔交易之间的间隔，单位为秒；Amount 是交易金额。Class 是分类变量，在发生欺诈时为1，否则为0。项目要求根据现有数据集建立分类模型，对信用卡欺诈行为进行检测。
数据来源链接： https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud/

2、代码

import plotly.express as px
from sklearn.ense