SVM基本使用
SVM在解决分类问题具有良好的效果,出名的软件包有libsvm(支持多种核函数),liblinear。此外python机器学习库scikit-learn也有svm相关算法,sklearn.svm.SVC和
sklearn.svm.LinearSVC分别由libsvm和liblinear发展而来。
推荐使用SVM的步骤为:
将原始数据转化为SVM算法软件或包所能识别的数据格式;
将数据标准化;(防止样本中不同特征数值大小相差较大影响分类器性能)
不知使用什么核函数,考虑使用RBF;
利用交叉验证网格搜索寻找最优参数(C, γ);(交叉验证防止过拟合,网格搜索在指定范围内寻找最优参数)
使用最优参数来训练模型;
测试。
下面利用scikit-learn说明上述步骤:
1 importnumpy as np2 from sklearn.svm importSVC3 from sklearn.preprocessing importStandardScaler4 from sklearn.model_selection importGridSearchCV, train_test_split5
6 defload_data(filename)7 '''
8 假设这是鸢尾花数据,csv数据格式为:9 0,5.1,3.5,1.4,0.210 0,5.5,3.6,1.3,0.511 1,2.5,3.4,1.0,0.512 1,2.8,3.2,1.1,0.213 每一行数据第一个数字(0,1...)是标签,也即数据的类别。14 '''
15 data = np.genfromtxt(filename, delimiter=