一、支持向量机
支持向量机(Support Vector Machines,SVM)是一种常用的监督学习算法,用于分类和回归问题。在分类任务中,SVM试图找到一个最优超平面,将不同类别的样本分隔开来。
二、SVM的使用及参数含义
下面是SVM的使用方法和一些常见参数的含义:
-
数据准备:首先,你需要准备带有标签的训练数据集,其中每个样本包含一组特征和对应的标签。
-
特征预处理:在应用SVM之前,通常需要对特征进行标准化或归一化处理,以确保不同特征的尺度一致,避免某些特征对分类结果的影响更大。
-
创建模型:使用机器学习库(如scikit-learn)来创建一个SVM分类器对象。在scikit-learn中,可以使用
SVC
类来实现SVM。 class sklearn.svm.svc(c=0.1,kernel='linear',gamma='auto') -
参数选择:SVM中的一些重要参数如下:
-
C
参数(正则化参数):c越大对误分类的惩罚越大,这样对训练集的准确率很高,但是泛化能力会很弱;c越小对误分类的惩罚越小,允许出错将出错的数据当作噪声点,泛化能力较强,建议通过交叉验证来选择。 -
核函数:SVM可以使用不同的核函数来从低维特征空间将数据映射到高维特征空间。常用的核函数有linear线性核(Linear Kernel)、poly多项式核(Polynomial Kernel)和rbf径向基函数(Radial Basis Function,RBF Kernel),多数情况下都会选择默认的rbf径向基函数。
-
gamma
参数(对RBF核函数有效):它控制了样本点对决策边界的影响。较小的gamma值将导致决策边界受到较远样本点的影响,而较大的gamma值将导致决策边界只受到较近样本点的影响。换句话说,gamma值越小,过拟合风险越低,反之则过拟合风险越高。在sklearn0.21版本中gamma值默认为‘auto’,实际系数就是1/n_features,也就是如果有10个特征,那么gamma值就为0.1;而在sklearn0.22版本中gamma默认为‘scale’,此时gamma=1/(n_features*X.var()),其中X.var()表示样本所有特征的平均值。建议通过交叉验证来选择。 -
degree:整型,一般默认三维,多项式核函数poly选择时默认啊是三维,选择其他函数时忽略。
-
cachez_size:核函数cache缓存大小,默认是200MB。
-
-
模型训练:使用准备好的训练数据对SVM分类器进行训练,即通过调用
fit
方法传入特征和标签。 -
模型预测:使用训练好的SVM分类器对新的未知样本进行预测,即通过调用
predict
方法传入特征数据。
相关案例可以参考笔者的另一篇文章: svm的代码实现
三、总结
SVM是一个强大且灵活的分类器,可以处理线性和非线性问题。然而,在实际使用中,需要根据具体问题和数据的特点来选择适当的参数和核函数进行调整,以获得最佳的性能和准确性。