svm
我在这里将简要介绍svm算法以及其在sklearn中的使用方法
我这里只是过知识点
svm算法(支持向量机),能够同时处理分类和回归问题,我们这里主要介绍分类中的应用.
1.简介svm
我们用两个特征的样本举例:
对于逻辑回归,我们只是找到了一个决策边界能够分割开我们的样本,但是实际上是没有管样本的分布状态的,有可能决策边界距离一个类别非常近。这样显然是不合理的。
所以svm的核心思想就是找到如图所示的两直线,他经过两个类别中的离分界点最近的点,我们要找到让2d最大的直线,
这个2d我们叫做margin,目的函数就max这个margin
这种叫做hard-margin-svm:,margin里面不能出现任何样本点.
下面我们就去寻找目标函数就行了:
*决策边界的方程是 wT Xi +b=0
大概就可以得出让 1/2 |w|^2 min就行了 ,但是这个是有约束项的最优化问题,使用拉普拉斯算子求解.
大概介绍完毕,下面我们来了解sklearn里面的使用:
from sklearn.svm import LinearSVC
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.metrics import roc_auc_score
iris=load_iris()
data=iris['data']
target=iris['target']
X_train, X_test, y_train, y_test=train_test_split(data,target,random_state=666)
def linear_svc_pipe():
return Pipeline([
('standard',StandardScaler()),
('svc',LinearSVC())
])
pipe=linear_svc_pipe()
pipe.fit(X=X_train,y=y_train)
y_predict=pipe.predict(X_test)
print(y_predict,y_test)
print(pipe.score(X_test,y_test))
soft-margin-svm:
我们的数据一般是不可能非常容易的使用线性分出来:我们允许出现一些错误,就是在决策边界margin中允许出现一些数据,
这样就比较合适,效果会好一些.
现在的限制条件变成上面的这个,
目标函数为:(使用l1正则,也可以使用l2正则)
c决定允许出错的范围,c很大时候就是hard margin svm
2.核函数(kernel)
先介绍多项式的方式来解决:
from sklearn.datasets import load_iris
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures,StandardScaler
def poly_svc(degree=2,C=1.0):
return Pipeline([
('step1',StandardScaler()),
('s2',PolynomialFeatures(degree=degree)),
('s3',LinearSVC(C=C))
])
iris=load_iris()
data=iris['data']
target=iris['target']
X_train, X_test, y_train, y_test=train_test_split(data,target,random_state=666)
pipe=poly_svc(degree=2,C=4)
pipe.fit(X_train,y_train)
print(pipe.score(X_test,y_test))
print(y_test)
print(pipe.predict(X_test))
k(x,y)=x1*y1,他就可以理解成一个函数,将我们的x,y变换。达到分别变换 x,y,然后相乘的效果.
- 多项式核函数:
k(x1,x2)=(x1*x2+c)^d
c,d 都是超参数
更加节省空间,速度也变快 - 高斯核函数(RBF核函数):
k(x,y)=e(-gamma*|x-y|2)
每个样本点都为1个landmark,让每一个样本点变为无穷维的空间,
理解成这里xi->(e(-gamma*|xi-y0|2),…,e(-gamma*|xi-yn|2))
就很像升维度,让数据线性可分
跟正态分布很像
gamma越大,model 越复杂,可以结合正态分布来理解
kernel在sklearn里面的使用
#下面我们使用核函数
.....
from sklearn.svm import SVC
def poly_svc2(degree=2,C=1.0):
return Pipeline([
('step1',StandardScaler()),
('step2',SVC(degree=degree,C=C,coef0=1,max_iter=1e8,kernel='poly'))
])
pipe2=poly_svc(degree=2,C=4)
pipe2.fit(X_train,y_train)
print(pipe2.score(X_test,y_test))
print(y_test)
print(pipe2.predict(X_test))
def poly_svc3(gamma):
return Pipeline([
('step1',StandardScaler()),
('step2',SVC(gamma=gamma,max_iter=1e10,kernel='rbf))
])
pipe2=poly_svc(50)
pipe2.fit(X_train,y_train)
print(pipe2.score(X_test,y_test))
print(y_test)
print(pipe2.predict(X_test))
我们不用改变x就可以达到相同的效果。