机器学习案例实战之信用卡欺诈检测【人工智能工程师--AI转型必修课】

CSDN学习

于 2018-01-04 15:21:39 发布

阅读量2.5k

点赞数

分类专栏： CSDN学院【资讯】 CSDN学院【优惠活动】 CSDN学院【免费公开课】文章标签：机器学习人工智能工程师信用卡欺诈

本文链接：https://blog.csdn.net/CSDNedu/article/details/78971354

版权

本文通过机器学习实战案例，探讨信用卡欺诈检测。数据经过PCA处理，面临样本不均衡问题。采用下采样和过采样策略，利用Logistic Regression进行模型训练，并通过调整阈值优化模型。评估指标侧重于Recall，展示不同C参数和阈值对模型的影响。文章强调了在数据不平衡场景中选择合适评估方法的重要性。

摘要由CSDN通过智能技术生成

故事背景：原始数据为个人交易记录，但是考虑数据本身的隐私性，已经对原始数据进行了类似PCA的处理，现在已经把特征数据提取好了，接下来的目的就是如何建立模型使得检测的效果达到最好，这里我们虽然不需要对数据做特征提取的操作，但是面对的挑战还是蛮大的。

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import KFold, cross_val_score
from sklearn.metrics import confusion_matrix,recall_score,classification_report

数据分析与建模可不是体力活，时间就是金钱我的朋友（魔兽玩家都懂的！）如果你用python来把玩数据，那么这些就是你的核武器啦。简单介绍一下这几位朋友！
Numpy-科学计算库主要用来做矩阵运算，什么？你不知道哪里会用到矩阵，那么这样想吧，咱们的数据就是行（样本）和列（特征）组成的，那么数据本身不就是一个矩阵嘛。
Pandas-数据分析处理库很多小伙伴都在说用python处理数据很容易，那么容易在哪呢？其实有了pandas很复杂的操作我们也可以一行代码去解决掉！
Matplotlib-可视化库无论是分析还是建模，光靠好记性可不行，很有必要把结果和过程可视化的展示出来。
Scikit-Learn-机器学习库非常实用的机器学习算法库，这里面包含了基本你觉得你能用上所有机器学习算法啦。但还远不止如此，还有很多预处理和评估的模块等你来挖掘的！

data = pd.read_csv(“creditcard.csv”)
data.head()

这里写图片描述

首先我们用pandas将数据读进来并显示最开始的5行，看见木有！用pandas读取数据就是这么简单！这里的数据为了考虑用户隐私等，已经通过PCA处理过了，现在大家只需要把数据当成是处理好的特征就好啦！

接下来我们核心的目的就是去检测在数据样本中哪些是具有欺诈行为的！

count_classes = pd.value_counts(data[‘Class’], sort = True).sort_index()
count_classes.plot(kind = ‘bar’)
plt.title(“Fraud class histogram”)
plt.xlabel(“Class”)
plt.ylabel(“Frequency”)