支持向量机SVM,(Support Vector Machines)
支持向量机SVM是一种用于分类、回归和异常值检测的监督学习方法。
支持向量机的优点有:
- 适用于高维空间。
- 在原始数据大于样本数的情况下仍然有效。
-决策函数中(也称为支持向量)使用训练点的子集,它也是储存有效的。 - 通用性:可以为决策函数指定不同的内核函数。提供了通用内核,但也可以指定自定义内核。
支持向量机的缺点包括: - 如果特征个数远大于样本个数,在选择核函数时应避免过拟合,正则化项是关键。
- 支持向量机不直接提供概率估计,这些计算比交叉验证消耗多五倍。
SK-LEARN中的支持向量机,支持dense(numpy.ndarray and convertible to that by numpy.asarray)和稀疏矩阵sparse (any scipy.sparse)样本变量的输入。然而,使用SVM去假设稀疏数据,它必须是可以匹配那些数据的。最佳的情况是使用C-ordered numpy.ndarray (dense) 或者 scipy.sparse.csr_matrix (sparse) 在 dtype=float64的情况下。
分类
有以下三种方式SVC、NuSVC和LinearSVC可以展示SVM的数据表现
SVC和NuSVC是相似的方法,但是接受的参数集略有不同,并且有不同的数学公式(参见数学公式部分)。另一方面,linear svc是另一种实现支持向量分类的情况下的线性核。注意linear svc不接受关键字kernel,因为这是假定为线性的。它也缺少SVC和NuSVC的一些成员,比如support_。
与其他分类器一样,SVC、NuSVC和LinearSVC将两个数组作为输入:一个数组X大小为[n_samples, n_features],其中包含训练样本;一个数组y为类标签(字符串或整数),大小为[n_samples]:
>>> from sklearn import svm
>>> X = [[0, 0], [1, 1]]
>>> y = [0, 1]
>>> clf = svm.SVC(gamma='scale')
>>> clf.fit(X, y)
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
max_iter=-1, probability=False, random_state=None, shrinking=True,
tol=0.001, verbose=False)
拟合后,模型可用于预测新值:
>>> clf.predict([[2., 2.]])
array([1])
SVMs决策函数依赖于训练数据的某个子集,称为支持向量。这些支持向量的一些属性可以在成员support_vectors_、support_和n_support中找到:
>>> # get support vectors
>>> clf.support_vectors_
array([[0., 0.],
[1., 1.]])
>>> # get indices of support vectors
>>><