线性判别（LDA）准则与线性分类（支持SVM）编程实践

最新推荐文章于 2022-05-18 14:09:09 发布

an-ning

最新推荐文章于 2022-05-18 14:09:09 发布

阅读量194

点赞数

文章标签：分类数据挖掘人工智能

本文链接：https://blog.csdn.net/qq_46689721/article/details/121150611

版权

文章目录

1、算法介绍

1.1、LDA算法简介

线性判别分析（Linear Discriminant Analysis，简称LDA）: 是一种经典的有监督数据降维方法。LDA的主要思想是将一个高维空间中的数据投影到一个较低维的空间中，且投影后要保证各个类别的类内方差小而类间均值差别大，这意味着同一类的高维数据投影到低维空间后相同类别的聚在一起，而不同类别之间相距较远。
原文链接：https://blog.csdn.net/youthblood9/article/details/121096113

1.2、SVM算法简介

在机器学习中，支持向量机（SVM）是具有相关学习算法的监督学习模型，其分析用于分类和回归分析的数据。给定一组训练示例，每个示例标记为属于两个类别中的一个或另一个，SVM训练算法构建一个模型，将新示例分配给一个类别或另一个类别，使其成为非概率二元线性分类器。SVM模型是将示例表示为空间中的点，映射使得单独类别的示例除以尽可能宽的明确间隙。然后将新的示例映射到同一空间，并根据它们落在哪个边缘预测属于一个类别。

1.3、线性判别思想

    给定训练样本集，设法将样例投影到一条直线上。使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远；在对新样本进行分类时，将其投影到该直线上，再根据投影点的位置来确定新样本的类别。

2、LDA算法实现

模拟生成数据集

#模拟生成150个数据样本
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.datasets import make_classification
x, y = make_classification(n_samples=150, n_features=2, n_redundant=0, n_classes=2, n_informative=2,n_clusters_per_class=2,class_sep =1, random_state =0)
fig = plt.figure()
plt.scatter(x[:, 0], x[:, 1], c=y)

在这里插入图片描述

将数据集分为训练集和测试集，分类比为6：4，训练完之后利用测试集获得准确率

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as lda#导入LDA算法
#分为训练集和测试集，进行模型训练并测试
x_train=x[:90, :90]
y_train=y[:90]
x_test=x[60:, :]
y_test=y[60:]
lda_test=lda()
lda_test.fit(x_train,y_train)
predict_y=lda_test.predict(x_test)#获取预测的结果
count=0
for i in range(len(predict_y)):
    if predict_y[i]==y_test[i]:
        count+=1
print("预测准确个数为"+str(count))
print("准确率为"+str(count/len(predict_y)))

在这里插入图片描述

3、对月亮数据集进行SVM分类

3.1、线性核方式首先导入包并获取月亮数据集

# 导入月亮数据集和svm方法
#这是线性svm
from sklearn import datasets #导入数据集
from sklearn.svm import LinearSVC #导入线性svm
from matplotlib.colors import ListedColormap
from sklearn.preprocessing import StandardScaler
data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集
# random_state是随机种子，nosie是方
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
data_x=data_x[data_y<2,:2]#只取data_y小于2的类别，并且只取前两个特征
plt.show()

在这里插入图片描述
我们可以看到数据集如下，月亮数据集是很圆滑的两个弧线，这里设置random_state，使数据没那么有规律
对数据进行标准化并训练

scaler=StandardScaler()# 标准化
scaler.fit(data_x)#计算训练数据的均值和方差
data_x=scaler.transform(data_x) #再用scaler中的均值和方差来转换X，使X标准化
liner_svc=LinearSVC(C=1e9,max_iter=100000)#线性svm分类器,iter是迭达次数，c值决定的是容错，c越大，容错越小
liner_svc.fit(data_x,data_y)

在这里插入图片描述

写一个边界绘制函数，为下面可视化分类做准备

# 边界绘制函数
def plot_decision_boundary(model,axis):
    x0,x1=np.meshgrid(
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1))
    # meshgrid函数是从坐标向量中返回坐标矩阵
    x_new=np.c_[x0.ravel(),x1.ravel()]
    y_predict=model.predict(x_new)#获取预测值
    zz=y_predict.reshape(x0.shape)
    custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    plt.contourf(x0,x1,zz,cmap=custom_cmap)

画图以及输出参数权重和模型截距

#画图并显示参数和截距
plot_decision_boundary(liner_svc,axis=[-3,3,-3,3])
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
plt.show()
print('参数权重')
print(liner_svc.coef_)
print('模型截距')
print(liner_svc.intercept_)

在这里插入图片描述

3.2、多核式核方式

同样的第一步也是导入包，不过多了pipeline核多项式回归，并且生成数据，也是月亮数据集，和线性svm一致

# 导入月亮数据集和svm方法
#这是多项式核svm
from sklearn import datasets #导入数据集
from sklearn.svm import LinearSVC #导入线性svm
from sklearn.pipeline import Pipeline #导入python里的管道
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler,PolynomialFeatures #导入多项式回归和标准化
data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集
# random_state是随机种子，nosie是方
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
data_x=data_x[data_y<2,:2]#只取data_y小于2的类别，并且只取前两个特征
plt.show()

在这里插入图片描述

利用pipeline进行一体化编程，为了方便，将它放入函数中

 def PolynomialSVC(degree,c=10):#多项式svm
    return Pipeline([
            # 将源数据 映射到 3阶多项式
            ("poly_features", PolynomialFeatures(degree=degree)),
            # 标准化
            ("scaler", StandardScaler()),
            # SVC线性分类器
            ("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42,max_iter=10000))
        ])

进行模型训练并画图

# 进行模型训练并画图
poly_svc=PolynomialSVC(degree=3)
poly_svc.fit(data_x,data_y)
plot_decision_boundary(poly_svc,axis=[-1.5,2.5,-1.0,1.5])#绘制边界
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
plt.show()
print('参数权重')
print(poly_svc.named_steps['svm_clf'].coef_)
print('模型截距')
print(poly_svc.named_steps['svm_clf'].intercept_)

在这里插入图片描述

3.3、高斯核方式

;同样的第一步也是导入包，并且生成数据，也是月亮数据集

## 导入包
from sklearn import datasets #导入数据集
from sklearn.svm import SVC #导入svm
from sklearn.pipeline import Pipeline #导入python里的管道
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler#导入标准化
data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集
# random_state是随机种子，nosie是方
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
data_x=data_x[data_y<2,:2]#只取data_y小于2的类别，并且只取前两个特征
plt.show()

定义SVM高斯模型，并进行模型训练画出图形，这里面的gamma参数也很重要，gamma参数越大，支持向量越小，和C是差不多，改变gamma的值，判断区域会发生变化

def RBFKernelSVC(gamma=1.0):
    return Pipeline([
        ('std_scaler',StandardScaler()),
        ('svc',SVC(kernel='rbf',gamma=gamma))
    ])

svc=RBFKernelSVC(gamma=100)#gamma参数很重要，gamma参数越大，支持向量越小
svc.fit(data_x,data_y)
plot_decision_boundary(svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
plt.show()