机器学习之路02——模型评估之“交叉验证法(cross )”

最新推荐文章于 2023-03-05 14:35:37 发布

BigDataer_DK

最新推荐文章于 2023-03-05 14:35:37 发布

阅读量672

点赞数 1

分类专栏：大数据文章标签：机器学习

本文链接：https://blog.csdn.net/BigData_DK/article/details/83625399

版权

大数据专栏收录该内容

11 篇文章 0 订阅

订阅专栏

先将数据集D划分为k个大小相似的互斥子集，即D=D~1∪D~2...∪D~k，D~i∩D~j=⊙(i≠j).每个子集D~i都尽可能保持数据分布的一致性，即从D中通过分层采样得到，然后，每次用k—1个子集的并集作为训练集，剩余的那个子集作为测试集（k组训练/测试集），从而可进行k次训练和测试，最终返回的就是这k个测试结果的均值
注意：
1.常见的为“10折交叉验证”
2.为减小因样本划分不同而引入的差别，k折交叉验证通常要随机使用不同的划分重复p次，最终结果是这p次k折交叉验证结果的均值
3.假定数据集D中包含m个样本，若另k=m，=>得到一个特例：留一法（Leave-One-Out，LOO），留一法不受随机样本划分方式的影响，因为m个样本只有唯一方式划分为m个子集——每个子集包含一个样本；留一法使用的训练集与初始数据集相比只少了一个样本，这就使得在绝大多数情况下，留一法中被实际评估的模型与期望评估的用D训练出的模型很相似，因此，留一法的评估往往被认为比较准确，其缺陷是：在数据集较大时，训练m个模型的计算开销很大，也并不一定比其他评估方法准确