交叉验证的正确用法

最新推荐文章于 2023-09-23 14:40:56 发布

V丶Chao

最新推荐文章于 2023-09-23 14:40:56 发布

阅读量1.1k

点赞数

文章标签：算法 python 机器学习深度学习人工智能

本文链接：https://blog.csdn.net/u011698800/article/details/107607681

版权

2019/04/03
交叉验证到底是干什么的？有说是为了进行模型评估的，又有说是为了调整参数的，具体的作用到底是什么？
2019/04/05
上面这句话，我在一篇文章也看到了，但并没有给出说明。https://towardsdatascience.com/cross-validation-in-machine-learning倒是有个东西，挺重要的，交叉验证可以评估算法的稳定性。

2019/04/06
有些地方说，交叉验证可以帮助解决过拟合问题，这我就不同意了。然后找了找一些回答，回答1（
Why-does-cross-validation-prevent-overfit-What-is-the-theoretical-implication-of-this），直接就挑明了，交叉验证并不能解决过拟合问题，他只是给出了指标，这也是我能接受的理解；回答2（how-does-cross-validation-overcome-the-overfitting-problem看完一些回答，感觉他们并没有准确回答问题，反而感觉像是炫技一样。

关于如何将调参和交叉验证结合在一起。
How-can-you-combine-k-fold-cross-validation-with-hyperparameter-tuning

2019/03/12
我也看了很多论文，他们对于这个东西的关注度非常低。基本上就是把这个采用的方法说一下，然后就不再提这个事情了，具体的细节也没有说出来。这本质上就很尴尬。
而且我自己在做的时候，也拿不准。如果只有一部分是测试数据，这个的出来的效果会不会不好。

2019/03/06

文章[1]利用一个线性回归的例子，说明了你在选择特征的时候，应该仅仅在测试集上选择，而不是全部的数据集，避免信息泄露。（其实我对这个东西，没有很明白，它的意义。这个交叉验证的正确使用方法，也没有非常规范的说明，那本统计学习基础倒是提到了这个问题。意思就是你要做的某些操作，必须在测试集上做，不能直接在全部数据集就操作，不然你的结果就虚高。）

关于这个东西的讨论，我觉得没有必要一直掐着不放，对于我这种不搞这个东西的人没有任何意义。
把一些有价值的连接留下来把，没事想看就看看。
https://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

https://stats.stackexchange.com/questions/264533/how-should-feature-selection-and-hyperparameter-optimization-be-ordered-in-the-m

https://www.predictiveanalyticsworld.com/patimes/nested-cross-validation-simple-cross-validation-isnt-enough/8952/
https://stats.stackexchange.com/questions/64991/model-selection-and-cross-validation-the-right-way

https://stats.stackexchange.com/questions/2306/feature-selection-for-final-model-when-performing-cross-validation-in-machine?rq=1

https://stats.stackexchange.com/questions/11602/training-with-the-full-dataset-after-cross-validation
上面这个问答回答的，让我感觉像是那么回事。
就是我应该把模型选择和特征选择这种东西放置到交叉验证的训练集中，nested cross validation。

https://stats.stackexchange.com/questions/244907/how-to-get-hyper-parameters-in-nested-cross-validation

看不懂看不懂，越看越糊涂。
太乱了，而且感觉很多人的回答都是文不对题。