小项目(逻辑回归)--信用卡数据异常检测

数据下载:creditcard.csv

1.数据集

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

data = pd.read_csv('creditcard.csv')
print(data.head(n=5))
countClasses = pd.value_counts(data['Class'],sort=True).sort_index() #计算class列中不同属性的数据的个数
countClasses.plot(kind='bar') #简单的pandas也可以画图
plt.show()

在这里插入图片描述
在这里插入图片描述
2.发现Amount这一列数值比较大,在机器学习中特征的重要性偏爱数值比较大的特征,解决办法可以标准化

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler #sklearn数据预处理模块

data = pd.read_csv('creditcard.csv')
dataMatrix = np.mat(data) #将数据变换成矩阵形式

X = dataMatrix[:,:-1] #数据集
y = dataMatrix[:,-1] #标签
scaler = StandardScaler().fit(X) #StandardScaler()这个小括号一定不能忘记,#标准化:(x-mean)/std
dataStand = scaler.transform(X)
print(dataStand[:5,:])

在这里插入图片描述

3.发现样本分布非常不均衡
解决方案:下采样(将多的样本随机选取和少样本一样的数目),过采样(将少样本数目增加到多样本数目)

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler #sklearn数据预处理模块

data = pd.read_csv('creditcard.csv')
dataMatrix = np.mat(data)

X = dataMatrix[:,:-1]
y = dataMatrix[:,-1]
#print(len(y)) #284807
scaler = StandardScaler().fit(X) #标准化ÿ
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
信用卡欺诈检测是一种非常重要的应用场景,可以帮助银行和客户识别和预防欺诈行为。在Python中,我们可以使用各种机器学习和深度学习算法来构建欺诈检测模型。 首先,我们需要了解数据集。信用卡欺诈检测数据集通常包含大量的交易数据,其中只有少数是欺诈交易。我们需要使用机器学习算法来识别这些欺诈交易。 接下来,我们可以使用Python中的各种机器学习库来构建模型,例如Scikit-learn,TensorFlow和Keras等。我们可以使用分类算法(例如逻辑回归,决策树和随机森林等)来构建模型,也可以使用深度学习算法(例如神经网络和卷积神经网络等)来构建模型。 在实现模型之前,我们还需要进行数据预处理和特征工程。我们需要对数据进行清洗,处理缺失值和异常值,并进行特征选择和降维等操作,以提高模型的性能。 最后,我们可以使用交叉验证和网格搜索等技术来优化模型,并评估模型的性能。我们可以使用各种性能指标(例如准确率,召回率和F1分数等)来评估模型的性能,并选择最佳模型来预测新的欺诈交易。 总之,信用卡欺诈检测是一项非常重要的任务,Python提供了各种机器学习和深度学习算法来实现。通过数据预处理,特征工程和模型优化,我们可以构建高效的欺诈检测模型,帮助银行和客户识别和预防欺诈行为。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值