本帖最后由 azure_sky 于 2014-1-17 00:30 编辑
2).K-fold Cross Validation(记为K-CV)
将原始数据分成K组(一般是均分),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型,用这K个模型最终的验证集的分类准确率的平均数作为此K-CV下分类器的性能指标.K一般大于等于2,实际操作时一般从3开始取,只有在原始数据集合数据量小的时候才会尝试取2.K-CV可以有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性.
--------------------------------------------我是分界线------------------------------------------------------------------------------------
关于交叉验证K-FOLD我有几个问题:
1) 假设是4-fold的交叉验证,需要跑四次SVM,有四个model。我想问,他们的SVM 的参数,比如c和g设置相同么?
2) k-fold CV经常被用作参数选取。这个最佳参数是怎么得到的。
每个model会得到一个c和g的参数
然后对这k个参数加权平均么?
还是说,在进行k-fold cv时,所有模型使用相同的c和g参数。
3)关于k-fold的用法。 我常见的一种情况是,有训练数据traindata和测试数据testdata
在traindata上跑交叉验证,选取最佳参数,然后在testdata上进行预测。
现在的情况是,我只有traindata,我想要用k-fold交叉验证在traindata。我关心的不是准确率,而是具体的预测值。
我知道l