一、支持向量机
支持向量机(SVM)为一种机器学习方法,在逻辑回归的基础上修改代价公式h(x)为coost(X*theta.T),可用于画决策曲线。
二、实现SVM
1)线性SVM
导入数据包。
import numpy as np
import pandas as pd
from scipy.io import loadmat
import matplotlib.pyplot as plt
先实验数据集ex6data1.mat,此数据集X每个训练样本有两个特征X1,X2,y为1/0。
raw_data = loadmat("E:\\Pycharm\\workspace\\ex_Andrew\\ex6_Andrew\\ex6data1.mat")
data = pd.DataFrame(raw_data.get('X'),columns=['X1','X2']) #data为数据集中的X,两列设为X1,X2
data['y'] = raw_data.get('y') #data设为50行三列的数据集
设计画图函数,画出ex6data1的图像,此图像可以线性分割,但有一个特殊的数据点。
def plot_init_data(data,fig,ax): #绘制散点图,有一个特殊样本数据
positive = data[data['y'].isin([1])] #数据集中y等于1的行
negative = data[data['y'].isin([0])] #数据集中y等于0的行
ax.scatter(positive['X1'],positive['X2'],s=50,marker='x',label='positive')
ax.scatter(negative['X1'],negative['X2'],s=50,marker='o',label='negative')
ax.legend()
fig,ax = plt.subplots(figsize=(8,6))
plot_init_data(data,fig,ax) #画出初始数据散点图
使用支持向量机,直接调用python包中svm.LinearSVC函数,C的初始值设为1时能最大程度上拟合,C设为100时,会受到特殊点影响。
from sklearn import svm
svc = svm.LinearSVC(C=1, loss='hinge', max_iter=10000) #max_iter应设的更高些,不会出bug
#设置C等于100,会得到不太拟合的线,向特殊点出倾斜
svc.fit(data[['X1','X2']