支持向量机的优势:高维空间中高效,维度比样本数量多依然有效,内存利用高效。
缺点:选择核函数避免过拟合。
时间复杂度:线性
1.4.1 分类
from sklearn import svm
dataSet = [
[
[0,0], [1,1]
],
[
0,1
]
]
clf = svm.SVC(gamma='scale')
clf.fit(dataSet[0], dataSet[1])
print(clf.predict(dataSet[0]))
console: [0 1]
clf.support_vectors_ # 支持向量 clf.support_ # 获得支持向量的索引 clf.n_support_ # 两个类的支持向量的数量
1.4.2 多分类
from sklearn import svm
dataSet = [
[
[0,0], [1,1],[2,2]
],
[
0,1,2
]
]
clf = svm.SVC(gamma='scale',decision_function_shape="ovo")
clf.fit(dataSet[0], dataSet[1])
print(clf.predict(dataSet[0]))
print(clf.predict_proba(dataSet[0]))
对于决策函数的形状,我们有ovr和ovo。
print(clf.predict_proba(dataSet[0]))输出得分和概率,得分和概率和预测结果可能不同,得分采用交叉验证来拟合,而预测则不是。
1.4.3 非均衡问题
- 训练集不均衡,为训练集设置权重。
dataSet = [
[
[0,0], [1,1],[2,2]
],
[
0,1,2
],
[
1,1,2
]
]
clf.fit(dataSet[0], dataSet[1], sample_weight=dataSet[2])
- 类别不均衡,为类别设置权重。
clf = svm.SVC(gamma='scale', decision_function_shape="ovo",class_weight={0: 1, 1: 2, 2: 3})
类别不均衡,相当于某个类中的所有训练集,相同程度的不均衡。
1.4.4 核函数
- 预定义核
clf = svm.SVC(gamma='scale', decision_function_shape="ovo", kernel='rbf')
clf = svm.SVC(gamma='scale', decision_function_shape="ovo", kernel='linear')
- 自定义核
import numpy as np
from sklearn import svm
def myKernel(X, Y):
return np.dot(X, Y.T)
clf = svm.SVC(kernel=myKernel)
- 使用Gram函数
gram = np.dot(X, Y.T)
clf = svm.SVC(gram, Y)