【Python机器学习】SVM解决非线性问题和信用卡欺诈检测实战(附源码和数据集)

需要全部源码和数据集请点赞关注收藏后评论区留言私信~~~

SVM简介

支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

非线性SVM算法原理

对于输入空间中的非线性分类问题,可以通过非线性变换将它转化为某个维特征空间中的线性分类问题,在高维特征空间中学习线性支持向量机。由于在线性支持向量机学习的对偶问题里,目标函数和分类决策函数都只涉及实例和实例之间的内积,所以不需要显式地指定非线性变换而是用核函数替换当中的内积。核函数表示,通过一个非线性转换后的两个实例间的内积

SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示, w⋅x+b=0 即为分离超平面,对于线性可分的数据集来说,这样的超平面有无穷多个(即感知机),但是几何间隔最大的分离超平面却是唯一的。

 SVM解决非线性问题

实验中用到半环形数据集

结果如下 SVM算法较好的分开了两个区域,强于聚类算法

 部分代码如下

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline

# 生成半环形数据
X, y = make_moons(n_samples=100, noise=0.1, random_state=1)
moonAxe=[-1.5, 2.5, -1, 1.5]      #moons数据集的区间

# 显示数据样本
def dispData(x, y, moonAxe):
    pos_x0=[x[i,0]for i in range(len(y)) if y[i]==1]
    pos_x1=[x[i,1]for i in range(len(y)) if y[i]==1]
    neg_x0=[x[i,0]for i in range(len(y)) if y[i]==0]
    neg_x1=[x[i,1]for i in range(len(y)) if y[i]==0] 

    plt.plot(pos_x0, pos_x1, "bo")
    plt.plot(neg_x0, neg_x1, "r^")
    
    plt.axis(moonAxe)
    plt.xlabel("x")
    plt.ylabel("y")

# 显示决策线
def dispPredict(clf, moonAxe):
    #生成区间内的数据
    d0 = np.linspace(moonAxe[0], moonAxe[1], 200)
    d1 = np.linspace(moonAxe[2], moonAxe[3], 200)
    xntourf(x0, x1, y_pred, alpha=0.8)

# 1.显示样本    
dispData(X, y, moonAxe)
# 2.构建模型组合,整合三个函数
polynomial_svm_clf=Pipeline(
                             (("multiFeature",PolynomialFeatures(degree=3)),
                              ("NumScale",StandardScaler()),
                              ("SVC",LinearSVC(C=100)))
                           )

# 3.使用模型组合进行训练
poly类线
dispPredict(polynomial_svm_clf, moonAxe)
# 5.显示图表标题
plt.title('Linear SVM classifies Moons data')
plt.show()

使用SVM进行信用卡欺诈检测

读取数据如下

数据可视化如下 

 

打印出数据中年龄大于70岁的人群信息

 

预测结果如下

大部分人进行信用卡欺诈的概率还是比较低 精度可以达到百分之九十三左右

 

部分代码如下

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

#(1) 载入数据
data = pd.read_csv("data/KaggleCredit2.csv",index_col= 0)
data.dropna(inplace=True)

#(2)对特征列进行标准化
cols = data.columns[1:]
ss = StandardScaler()
data[cols] = ss.fit_transform(data[cols])

#(3)构造数据和标签
X = data.drop('SeriousDlqin2yrs', axis=1) # 数据特征
y = data['SeriousDlqin2yrs']  #标签列

#(4)进行数据切分,测试集占比30%,生成随机数的种子是0
X_train,X_tes
#(5)构建SVM模型
#只使用特征“NumberOfTime60-89DaysPastDueNotWorse”进行SVM分类
from sklearn.svm import SVC
svm = SVC()
svm.fit(X_train[['NumberOfTime60-89DaysPastDueNotWorse']], y_train)
# svm.fit(X_train, y_train)  此句使用的是全部特征,时间耗费长
93%
svm.score(X_test[['NumberOfTime60-89DaysPastDueNotWorse']], y_test)

 创作不易 觉得有帮助请点赞关注收藏~~~

  • 34
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 45
    评论
PyTorch 是一种基于Python的开源机器学习框架,可以用于信用卡欺诈检测信用卡欺诈是一种严重的问题,给消费者和金融机构带来了巨大的损失。 利用 PyTorch 可以构建深度学习模型来识别和预测信用卡欺诈行为。在使用 PyTorch 之前,我们需要准备一个包含真实数据集的样本集,其中包含标记为欺诈和非欺诈的交易。我们可以使用监督学习算法,例如神经网络,来训练模型,以使其能够自动识别欺诈行为。 首先,我们需要将数据集划分为训练集和测试集。然后,我们可以使用 PyTorch 中的数据加载器将数据加载到模型中。接下来,我们可以定义一个包含多个隐藏层的深度神经网络模型,并选择适当的损失函数和优化算法。 通过训练模型,我们可以使其学习如何从输入特征中提取有关交易的相关信息,并对其进行分类。训练过程中,我们可以使用交叉验证技术来评估模型的性能和准确性。 在完成模型训练后,我们可以使用测试集来评估模型的性能。通过比较模型对测试集中交易的分类结果与实际的标签,我们可以计算出模型的准确率、精确度、召回率等指标,从而评估模型对于信用卡欺诈检测的效果。 总之,利用 PyTorch,我们可以构建一个强大的深度学习模型,通过对信用卡交易数据进行训练和测试,预测和识别潜在的信用卡欺诈行为。这有助于金融机构和消费者及时发现欺诈行为,减少损失,并提高金融系统的安全性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 45
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

showswoller

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值