支持向量分类实用指南

最新推荐文章于 2018-10-15 18:12:03 发布

maybepossible

最新推荐文章于 2018-10-15 18:12:03 发布

阅读量1k

点赞数

分类专栏： Machine Learning 文章标签： SVM libsvm 机器学习

本文链接：https://blog.csdn.net/WL2002200/article/details/44625259

版权

28 篇文章 1 订阅

订阅专栏

说明：本文翻译总结自 Chih-Wei Hsu等的论文 A Practical Guide to Support Vector Classification. 该论文也是libsvm的指导教程，在libsvm的homepage上可以下载阅读。

1 Introduction

SVM在数据分类上是很有用的工具。
虽然它比神经网络更易于使用，但不熟悉的使用者在第一次使用时往往得不到好的结果。
一个分类任务需要把数据分成训练集和测试集。
给出训练集的样本对 $(x_i,y_i),i = 1, ...,l$ , $x \in R^n, y \in \{1, -1\}^l$ 求解最优化问题：
$\min \limits _{ w,b,\xi } { 1 \over 2 } { W^T W + C \sum \limits _{i = 1}^l \xi_i }$
$subject \ to \quad y_i (W^T\phi(X_i)+b) \ge 1-\xi_i$
$\quad \quad \quad \quad \quad \ \ \xi_i \ge 0$
四种基本核函数：
- 线性： $K (X_i, X_j) = X_i ^TX_j$
- 多项式： $K (X_i,X_j) = (\gamma X_i^TX_j + r)^d , \gamma > 0$
- 径向基函数（RBF）： $K(X_i, X_j) = e^{-\gamma||X_i - X_j||^2}, \gamma > 0$
- sigmoid： $K(X_i,X_j) = tanh(\gamma X_i^TX_j +r)$

之所以选用径向基函数，是因为：
- 一般来说，径向基函数能应付类别与属性之间的非线性关系
- 多项式核函数参数更多，在高维情况可能出现无穷大或0值
- sigmoid核函数在某些参数是无效的
- 特别地，如果特征特别多，那就直接用线性核函数
通过 “Grid Search”选参
例如, $C = 2^{-5},2^{-3},... 2^{15}, \gamma = 2^{-15},2^{-13},...,2^3$

如果特征太多考虑先选择特征再用SVM.

关注

专栏目录