机器学习案例实战：交易数据异常检测

最新推荐文章于 2023-12-29 01:22:58 发布

Something Just Like

最新推荐文章于 2023-12-29 01:22:58 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习逻辑回归文章标签：机器学习逻辑回归梯度下降

本文链接：https://blog.csdn.net/qq_14815661/article/details/94546111

版权

本文介绍了一种使用机器学习进行交易数据异常检测的方法，通过下采样和过采样处理样本不均衡问题，利用逻辑回归模型进行训练，并通过调整C参数观察模型在不同正则化力度下的召回率表现，最终确定最佳C参数为0.01。

摘要由CSDN通过智能技术生成

原创文章,如需转载请保留出处
本博客为唐宇迪老师python数据分析与机器学习实战课程学习笔记

一. 案例背景目标
1.1 背景
现给定一些信用卡相关数据，从中剔除异常数据

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

data = pd.read_csv('creditcard.csv')
data.head()
data.shape

(284807, 31)
数据共284807行，31列

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V21	V22	V23	V24	V25	V26	V27	V28	Amount	Class
0	0.0	-1.359807	-0.072781	2.536347	1.378155	-0.338321	0.462388	0.239599	0.098698	0.363787	...	-0.018307	0.277838	-0.110474	0.066928	0.128539	-0.189115	0.133558	-0.021053	149.62	0
1	0.0	1.191857	0.266151	0.166480	0.448154	0.060018	-0.082361	-0.078803	0.085102	-0.255425	...	-0.225775	-0.638672	0.101288	-0.339846	0.167170	0.125895	-0.008983	0.014724	2.69	0
2	1.0	-1.358354	-1.340163	1.773209	0.379780	-0.503198	1.800499	0.791461	0.247676	-1.514654	...	0.247998	0.771679	0.909412	-0.689281	-0.327642	-0.139097	-0.055353	-0.059752	378.66	0
3	1.0	-0.966272	-0.185226	1.792993	-0.863291	-0.010309	1.247203	0.237609	0.377436	-1.387024	...	-0.108300	0.005274	-0.190321	-1.175575	0.647376	-0.221929	0.062723	0.061458	123.50	0
4	2.0	-1.158233	0.877737	1.548718	0.403034	-0.407193	0.095921	0.592941	-0.270533	0.817739	...	-0.009431	0.798278	-0.137458	0.141267	-0.206010	0.502292	0.219422	0.215153	69.99	0
5 rows × 31 columns

二.样本不均衡解决方案
2.1 统计数据

#分别统计0和1个数
count_classes = pd.value_counts(data['Class'],sort = True).sort_index()
print(count_classes)
#画图显示统计个数
count_classes.plot(kind='bar')
plt.title("Fraud class histogram")
plt.xlabel("Class")
plt.ylabel("Frequency")

0 284315（正常数据）
1 492（异常数据）
Name: Class, dtype: int64
在这里插入图片描述
2.2 两种采样策略

下采样：正常数据284315条，异常数据492条。从正常数据中取和异常数据一样多的数据。
过采样：正常数据284315条，异常数据492条。在异常数据生成和正常数据一样多的数据。

2.3 对数据预处理

#导入sklearn下预处理模块preprocessing
from sklearn.preprocessing import StandardScaler
#fit_transform对数据进行变换操作（不仅计算训练数据的均值和方差，还会基于计算出来的均值和方差来转换训练数据，从而把数据转换成标准的正太分布）
data['normAmount'] = StandardScaler().fit_transform(data['Amount'].values.reshape(-1, 1))
data = data.drop(['Time','Amount'],axis=1)
data.head()

	V1	V2	V3	V4	V5	V6	V7	V8	V9	V10	...	V21	V22	V23	V24	V25	V26	V27	V28	Class	normAmount
0	-1.359807	-0.072781	2.536347	1.378155	-0.338321	0.462388	0.239599	0.098698	0.363787	0.090794	...	-0.018307	0.277838	-0.110474	0.066928	0.128539	-0.189115	0.133558	-0.021053	0	0.244964
1	1.191857	0.266151	0.166480	0.448154	0.060018	-0.082361	-0.078803	0.085102	-0.255425	-0.166974	...	-0.225775	-0.638672	0.101288	-0.339846	0.167170	0.125895	-0.008983	0.014724	0	-0.342475
2	-1.358354	-1.340163	1.773209	0.379780	-0.503198	1.800499	0.791461	0.247676	-1.514654	0.207643	...	0.247998	0.771679	0.909412	-0.689281	-0.327642	-0