机器学习 libsvm交叉验证与网格搜索（参数选择）

最新推荐文章于 2024-07-04 15:38:21 发布

稚枭天卓

最新推荐文章于 2024-07-04 15:38:21 发布

阅读量3.5k

点赞数 1

分类专栏：机器学习算法文章标签： SVM RBF g c 交叉验证

本文链接：https://blog.csdn.net/u013630349/article/details/48036665

版权

本文介绍了交叉验证的概念、类型及其在机器学习中的作用，特别是针对SVM模型。详细讲解了libsvm库中的交叉验证方法，并探讨了RBF核参数C和g的选择，建议使用网格搜索策略来确定最佳参数组合，同时提醒了在参数选择和交叉验证中常见的错误和正确使用方式。

摘要由CSDN通过智能技术生成

首先说交叉验证。
交叉验证（Cross validation）是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力（generalize），能够避免过拟合问题。
交叉验证一般要尽量满足：
1）训练集的比例要足够多，一般大于一半
2）训练集和测试集要均匀抽样

交叉验证主要分成以下几类：

1）Double cross-validation
Double cross-validation也称2-fold cross-validation(2-CV)，作法是将数据集分成两个相等大小的子集，进行两回合的分类器训练。在第一回合中，一个子集作为训练集，另一个作为测试集；在第二回合中，则将训练集与测试集对换后，再次训练分类器，而其中我们比较关心的是两次测试集的识别率。不过在实际中2-CV并不常用，主要原因是训练集样本数太少，通常不足以代表母体样本的分布，导致测试阶段识别率容易出现明显落差。此外，2-CV中子集的变异度大，往往无法达到「实验过程必须可以被复制」的要求。

2）k-folder cross-validation(k折交叉验证)
K-fold cross-validation (k-CV)则是Double cross-validation的延伸，做法是将数据集分成k个子集，每个子集均做一次测试集&