<zz>libsvm / liblinear中的交叉训练技巧

最新推荐文章于 2019-07-09 10:43:46 发布

且歌且行

最新推荐文章于 2019-07-09 10:43:46 发布

阅读量1.8k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

28 篇文章 0 订阅

订阅专栏

原帖请见： http://www.binghe.org/2010/10/libsvm-cross-validation-and-grid-search/

Libsvm / Liblinear的主页中提供了一个binary cross validation的c/python/matlab接口

http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/eval/index.html

可以方便的拓展，进行自己需要的交叉验证。

交叉验证（Cross validation）是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力（generalize），能够避免过拟合问题。
交叉验证一般要尽量满足：
1）训练集的比例要足够多，一般大于一半
2）训练集和测试集要均匀抽样

交叉验证主要分成以下几类：

1）Double cross-validation
Double cross-validation也称2-fold cross-validation(2-CV)，作法是将数据集分成两个相等大小的子集，进行两回合的分类器训练。在第一回合中，一个子集作为训练集，另一个作为测试集；在第二回合中，则将训练集与测试集对换后，再次训练分类器，而其中我们比较关心的是两次测试集的识别率。不过在实际中2-CV并不常用，主要原因是训练集样本数太少，通常不足以代表母体样本的分布，导致测试阶段识别率容易出现明显落差。此外，2-CV中子集的变异度大，往往无法达到「实验过程必须可以被复制」的要求。

2）k-folder cross-validation(k折交叉验证)
K-fold cross-validation (k-CV)则是Double cross-validation的延伸，做法是将数据集分成k个子集，每个子集均做一次测试集，其余的作为训练集。k-CV交叉验证重复k次，每次选择一个子集作为测试集，并将k次的平均交叉验证识别率作为结果。
优点：所有的样本都被作为了训练集和测试集，每个样本都被验证一次。10-folder通常被使用。

3)leave-one-out cross-validation(LOOCV留一验证法)
假设数据集中有n个样本，那LOOCV也就是n-CV，意思是每个样本单独作为一次测试集，剩余n-1个样本则做为训练集。
优点：
1）每一回合中几乎所有的样本皆用于训练model，因此最接近母体样本的分布，估测所得的generalization error比较可靠。因此在实验数据集样本较少时，可以考虑使用LOOCV。
2）实验过程中没有随机因素会影响实验数据，确保实验过程是可以被复制的。
但LOOCV的缺点则是计算成本高，为需要建立的models数量与总样本数量相同，当总样本数量相当多时，LOOCV在实作上便有困难，除非每次训练model的速度很快，或是可以用平行化计算减少计算所需的时间。

且歌且行

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
<zz>libsvm / liblinear中的交叉训练技巧

原帖请见： http://www.binghe.org/2010/10/libsvm-cross-validation-and-grid-search/Libsvm / Liblinear的主页中提供了一个binary cross validation的c/python/matlab接口http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/
复制链接

扫一扫

专栏目录