信用卡异常检查（过采样，下采样、逻辑回归，混淆矩阵）

最新推荐文章于 2024-08-15 10:30:56 发布

wangxihe2012

最新推荐文章于 2024-08-15 10:30:56 发布

阅读量1.2k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/wangxihe2012/article/details/80167582

版权

这篇博客介绍了如何处理信用卡欺诈数据的不平衡问题，通过下采样和过采样的方法调整样本分布。使用逻辑回归模型进行训练，并通过交叉验证选择最佳的C参数。最后，通过混淆矩阵评估模型在测试集上的表现。

摘要由CSDN通过智能技术生成

import pandas as pda
import numpy as np
import matplotlib.pyplot as plt
import itertools
import missingno
data=pda.read_csv("creditcard.csv")
# print(data.head())
count_class=pda.value_counts(data.Class)
# print(count_class)  #查看样本标签分布情况,样本不均衡
# missingno.bar(data,labels=True,color='b')
# plt.show()
#无缺失值
#根据样本标签种类绘制图形
count_class.plot(kind="bar")
plt.xlabel("kind")
plt.ylabel("count")
# plt.show()
#Amount金额太大，标准化处理
amount=data.Amount.values
from sklearn.preprocessing import StandardScaler
amount=StandardScaler().fit_transform(amount.reshape(-1,1))
data["normAmount"]=amount
#删除无用的数据
data=data.drop(["Amount","Time"],axis=1)
# print(data.head())
#样本不均衡采样处理方法一、下采样，采用和种类小的一样多的样本
X=data.ix[:,data.columns!="Class"]
y=data.ix[:,data.columns=="Class"]
oneindex=data[data.Class==1].index
zeroindex=data[data.Class==0].index
selzeroindex=np.random.choice(zeroindex,len(oneindex),replace=False)#随机选取和标签1一样的index
totalindex=np.concatenate([oneindex,selzeroindex])
undersample=data.loc[totalindex]
# print(pda.value_counts(undersample.Class))

X_undersample=undersample.ix[:,undersample.columns!="Class"]
y_undersample=undersample.ix[:,undersample.columns=="Class"]
# print(X_undersample)
# print(y_undersample)

from sklearn.cross_validation import train_test_split
# from sklearn.model_selection import train_test_split