svm 入门

最新推荐文章于 2022-11-10 22:42:50 发布

bob007

最新推荐文章于 2022-11-10 22:42:50 发布

阅读量731

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

我一直觉得 SVM 是个很有趣的东西，不过也一直没办法 (mostly 冲堂 ) 去听林智仁老师的 Data mining 跟 SVM 的课；后来看了一些网络上的文件跟听 kcwu 讲了一下 libsvm 的用法后，就想整理一下，算是对于并不需要知道完整 SVM 理论的人提供使用 libsvm 的入门。原始 libsvm 的 README 跟 FAQ 也是很好的文件，不过你可能要先对 svm 跟流程有点了解才看得懂 ( 我在看时有这样的感觉 ) ；这篇入门就是为了从零开始的人而写的。

后来还有一些人提供意见，所以在此要感谢：不过请记得底下可能有些说法不一定对，但是对于只是想用 SVM 的人来说我觉得这样说明会比较易懂。

这篇入门原则上是给会写基本程序的人看的，也是给我自己一个备忘 , 不用太多数学底子，也不用对 SVM 有任何先备知识。

还看不懂的话有三个情形 , 一是我讲的不够清楚 , 二是你的常识不足 , 三是你是小白 ^^; 我自己是以完全不懂的角度开始的，这篇入门也有不少一样不懂 SVM 的人看过、而且看完多半都有一定程度的理解，所以假设情况一不会发生，那如果不懂一定是后两个情况 :P 也所以 , 有问题别问我。

SVM, Support Vector Machine , 简而言之它是个起源跟类神经网络有点像的东西，不过现今最常拿来就是做分类 (classification) 。也就是说，如果我有一堆已经分好类的东西 （可是分类的依据是未知的！） ，那当收到新的东西时， SVM 可以预测 (predict) 新的数据要分到哪一堆去。 SVM, Support Vector Machine , 听起来是很神奇的事（如果你觉得不神奇，请重想一想这句话代表什么： 分类的依据是未知的！ ，还是不神奇的话就请你写个程序解解看这个问题），也很像要 AI 之类的高等技巧 ... 不过 SVM 基于 统计学习理论 可以在合理的时间内漂亮的解决这个问题。以图形化的例子来说明 (by SVMToy), 像假定我在空间中标了一堆用颜色分类的点 , 点的颜色就是他的类别 , 位置就是他的数据 , 那 SVM 就可以找出区隔这些点的方程式 , 依此就可以分出一区区的区域 ; 拿到新的点 ( 数据 ) 时 , 只要对照该位置在哪一区就可以 (predict) 找出他应该是哪一颜色 ( 类别 ) 了 :

当然 SVM 不是真的只有画图分区那么简单 , 不过看上面的例子应该可以了解 SVM 大概在作什么 . 要对 SVM 再多懂一点点，可以参考 cjlin 在 data mining 课的 slides: pdf or ps 。
底下我试着在不用看那个 slide 的情况解释及使用 libsvm 。所以 , 我们可以把 SVM 当个黑盒子 , 数据丢进去让他处理然后我们再来用就好了 .

How do I get SVM?

林智仁(cjlin) 老师的 libsvm 当然是最完美的工具 .

Download libsvm

下载处 : Download Location:

[url=http://www.csie.ntu.edu.tw/~cjlin/cgi-bin/libsvm.cgi?+http://www.csie.ntu.edu.tw/%7Ecjlin/libsvm+zip]libsvm.zip [/url]or [url=http://www.csie.ntu.edu.tw/~cjlin/cgi-bin/libsvm.cgi?+http://www.csie.ntu.edu.tw/%7Ecjlin/libsvm+tar.gz]libsvm.tar.gz [/url]

.zip 跟 .tar.gz 基本上是一样的 , 只是看你的 OS; 习惯上 Windows 用 .zip 比较方便 ( 因为有 WinZIP, 不过我都用 WinRAR), UNIX 则是用 .tar.gz

The programs

解释一下几个主要执行档的作用 : (UNIX/Windows 下檔名稍有不同 , 请用常识理解我在讲哪个 )

Train ( 训练 ) data. 跑 SVM 被戏称为 " 开火车 " 也是由于这个程序名而来 . train 会接受特定格式的输入 , 产生一个 "Model" 檔 . 这个 model 你可以想象成 SVM 的内部数据 , 因为 predict 要 model 才能 predict, 不能直接吃原始数据 . 想想也很合理 , 假定 train 本身是很耗时的动作 , 而 train 好可以以某种形式存起内部数据 , 那下次要 predict 时直接把那些内部数据 load 进来就快多了 .

svmpredict

依照已经 train 好的 model, 再加上给定的输入 ( 新值 ), 输出 predict ( 预测 ) 新值所对应的类别 (class).

svmscale

Rescale data. 因为原始数据可能范围过大或过小 , svmscale 可以先将数据重新 scale ( 缩放 ) 到适当范围 .

File Format

档案格式要先交代一下 . 你可以参考 libsvm 里面附的

一行一笔资料，如 One record per line, as:

+1 1:0.708 2:1 3:1 4:-0.320 5:-0.105 6:-1

label

或说是 class, 就是你要分类的种类，通常是一些整数。 index

是有顺序的索引，通常是放连续的整数。

value

就是用来 train 的数据，通常是一堆实数。

每一行都是如上的结构 , 意思就是 : 我有一排资料 , 分别是 value1, value2, .... valueN, ( 而且它们的顺序已由 indexN 分别指定 ) ，这排数据的分类结果就是 label 。或许你会不太懂，为什么会是 value1,value2,.... 这样一排呢？这牵涉到 SVM 的原理。你可以这样想（我没说这是正确的），它的名字就叫 Support "Vector" Machine ，所以输入的 training data 是 "Vector"( 向量 ), 也就是一排的 x1, x2, x3, ... 这些值就是 valueN ，而 x[n] 的 n 就是由 indexN 指定。这些东西又称为 "attribute" 。

真实的情况是，大部份时候我们给定的数据可能有很多 " 特征 (feature)" 或说 " 属性 (attribute)" ，所以输入会是一组的。举例来说，以前面画点分区的例子来说，我们不是每个点都有 X 跟 Y 的坐标吗？所以它就有两种 attribute 。假定我有两个点： (0,3) 跟 (5,8) 分别在 label(class) 1 跟 2 ，那就会写成 1 1:0 2:3
2 1:5 2:8
同理，空间中的三维坐标就等于有三组 attribute 。这种档案格式最大的好处就是可以使用 sparse matrix ，或说有些 data 的 attribute 可以不存在。

To Run libsvm

来解释一下 libsvm 的程序怎么用。你可以先拿 libsvm 附的 heart_scale 来做输入，底下也以它为例：

看到这里你应该也了解，使用 SVM 的流程大概就是：

1. 准备数据并做成指定格式 ( 有必要时需 svmscale)

2. 用 svmtrain 来 train 成 model

3. 对新的输入，使用 svmpredict 来 predict 新数据的 svmtrain

svmtrain 的语法大致就是 :

The syntax of svmtrain is basically:

svmtrain [options] training_set_file [model_file]

training_set_file 就是之前的格式，而 model_file 如果不给就会叫 [training_set_file].model 。 options 可以先不要给。

下列程序执行结果会产生 heart_scale.model 檔： ( 屏幕输出不是很重要，没有错误就好了 )

./svm-train heart_scale
optimization finished, #iter = 219
nu = 0.431030
obj = -100.877286, rho = 0.424632
nSV = 132, nBSV = 107
Total nSV = 132

svmpredict

svmpredict 的语法是 : The syntax to svm-predict is:

svmpredict test_file model_file output_file

test_file 就是我们要 predict 的数据。它的格式跟 svmtrain 的输入，也就是 training_set_file 是一样的！不过每行最前面的 label 可以省略 ( 因为 predict 就是要 predict 那个 label) 。但如果 test_file 有 label 的值的话， predict 完会顺便拿 predict 出来的值跟 test_file 里面写的值去做比对，这代表： test_file 写的 label 是真正的分类结果，拿来跟我们 predict 的结果比对就可以知道 predict 有没有猜对了。也所以，我们可以拿原 training set 当做 test_file 再丢给 svmpredict 去 predict ( 因为格式一样 ) ，看看正确率有多高，方便后面调参数。其它参数就很好理解了： model_file 就是 svmtrain 出来的档案， output_file 是存输出结果的档案。输出的格式很简单，每行一个 label ，对应到你的 test_file 里面的各行。

下列程序执行结果会产生我们把原输入丢回去 predict ，第一行的 Accuracy 就是预测的正确率了。如果输入没有 label 的话，那就是真的 predict 了。看到这里，基本上你应该已经可以利用 svm 来作事了：你只要写程序输出正确格式的数据，交给 svm 去 train ，后来再 predict 并读入结果即可。

Advanced Topics

后面可以说是一些稍微进阶的部份，我可能不会讲的很清楚，因为我的重点是想表达一些观念和解释一些你看相关文件时很容易碰到的名词。

Scaling

svm-scale 目前不太好用，不过它有其必要性。因为适当的 scale 有助于参数的选择 ( 后述 ) 还有解 svm 的速度。
svmscale 会对每个 attribute 做 scale 。范围用 -l, -u 指定，通常是 [0,1] 或是 [-1,1] 。输出在 stdout 。
另外要注意的 ( 常常会忘记 ) 是 testing data 和 training data 要一起 scale 。
而 svm-scale 最难用的地方就是没办法指定 testing data/training data( 不同档案 ) 然后一起 scale 。

Arguments

前面提到，在 train 的时候可以下一些参数。 ( 直接执行 svm-train 不指定输入档与参数会列出所有参数及语法说明 ) 这些参数对应到原始 SVM 公式的一些参数，所以会影响 predict 的正确与否。
举例来说，改个 c=10:
./svm-train -c 10 heart_scale
再来 predict ，正确率马上变成 92.2% (249/270) 。

Cross Validation

一般而言， SVM 使用的方式 ( 在决定参数时 ) 常是这样：

1. 先有已分好类的一堆资料

2. 随机数拆成好几组 training set

3. 用某组参数去 train 并 predict 别组看正确率

4. 正确率不够的话，换参数再重复 train/predict

等找到一组不错的参数后，就拿这组参数来建 model 并用来做最后对未知数据的 predict 。这整个过程叫 cross validation ，也就是交叉比对。

在我们找参数的过程中，可以利用 svmtrain 的内建 cross validation 功能来帮忙：
-v n: n-fold cross validation
n 就是要拆成几组，像 n=3 就会拆成三组，然后先拿 1 跟 2 来 train model 并 predict 3 以得到正确率；再来拿 2 跟 3 train 并 predict 1 ，最后 1,3 train 并 predict 2 。其它以此类推。如果没有交叉比对的话，很容易找到只在特定输入时好的参数。像前面我们 c=10 得到 92.2% ，不过拿 -v 5 来看看： ./svm-train -v 5 -c 10 heart_scale
...
Cross Validation Accuracy = 80.3704% 平均之后才只有 80.37% ，比一开始的 86 还差。通常而言，比较重要的参数是 gamma (-g) 跟 cost (-c) 。而 cross validation (-v) 的参数常用 5 。

cost 默认值是 1, gamma 默认值是 1/k ， k 等于输入数据笔数。那我们怎么知道要用多少来当参数呢？

用试的
是的，别怀疑，就是 Try 参数找比较好的值。

Try 参数的过程常用 exponential 指数成长的方式来增加与减少参数的数值，也就是 2^n (2 的 n 次方 ) 。

因为有两组参数，所以等于要 try n*n=n^2 次。这个过程是不连续的成长，所以可以想成我们在一个 X-Y 平面上指定的范围内找一群格子点 ( grid ，如果你不太明白，想成方格纸或我们把平面上所有整数交点都打个点，就是那样 ) ，每个格子点的 X 跟 Y 经过换算 ( 如 2^x, 2^y) 就拿去当 cost 跟 gamma 的值来所以现在你应该懂得 libsvm 的 python 子目录下面有个 grid.py 是做啥的了：它把上面的过程自动化，在你给定的范围内呼叫 svm-train 去 try 所有的参数值。 python 是一种语言，在这里我不做介绍，因为我会了 :P (just a joke ，真正原因是 -- 这是 libsvm 的 tutorial) 。 grid.py 还会把结果 plot 出来，方便你寻找参数。 libsvm 有很多跟 python 结合的部份，由此可见 python 是强大方便的工具。很多神奇的功能，像自动登入多台机器去平行跑 grid 等等都是 python 帮忙的。不过 SVM 本身可以完全不需要 python ，只是会比较方便。

跑 grid ( 基本上用 grid.py 跑当然是最方便，不过如果你不懂 python 而且觉得很难搞，那你要自己产生参数来跑也是可以的 ) 通常好的范围是 [c,g]=[2^-10,2^10]*[2^-10,2^10] 另外其实 grid 用 [-8,8] 也很够了。

另一个值得一提的是 regression 。

简单来说，前面都是拿 SVM 来做分类 (classification), 所以 label 的值都是 discrete data 、或说已知的固定值。而 regression 则是求 continuous 的值、或说未知的值。你也可以说，一般是 binary classification, 而 regression 是可以预测一个实数。

比如说我知道股市指数受到某些因素影响 , 然后我想预测股市 .. 股市的指数就是我们的 label, 那些因素量化以后变成 attributes 。以后搜集那些 attributes 给 SVM 它就会预测出指数 ( 可能是没出现过的数字 ) ，这就要用 regression 。那乐透开奖的号码呢？因为都是固定已知的数字，很明显我们应该用一般 SVM 的 classification 来 predict 。 ( 注：这是真实的例子 -- llwang 就写过这样的东西 )

所以说 label 也要 scale, 用 svm-scale -y lower upper

但是比较糟糕的情况是 grid.py 不支持 regression ，而且 cross validation 对 regression 也常常不是很有效。

总而言之， regression 是非常有趣的东西，不过也是比较进阶的用法。在这里我们不细谈了，有兴趣的人请再参考 SVM 与 libsvm 的其它文件。

Epilogue

到此我已经简单的说明了 libsvm 的使用方式，更完整的用法请参考 libsvm 的说明跟 cjlin 的网站、 SVM 的相关文件，或是去上 cjlin 的课。 Copyright

All rights reserved by Hung-Te Lin ( 林弘德, piaip), ，
Website: piaip at ntu csie ， 2003.

All HTML/text typed within VIM on Solaris.
Style sheet from W3C Core StyleSheets.