李宏毅深度学习笔记1-3where doea the error come from

最新推荐文章于 2024-07-22 11:47:36 发布

英俊学霸博

最新推荐文章于 2024-07-22 11:47:36 发布

阅读量98

点赞数

分类专栏：李宏毅深度学习笔记文章标签：深度学习

本文链接：https://blog.csdn.net/qq_34340574/article/details/107135213

版权

李宏毅深度学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1、来源：bias（偏差）和variance（方差）

解释：真正的数值像是靶心，而模型预测则是打靶,error（误差）是每个模型（不同的训练集训练出来的模型）的预测值与实际值的差距，bias则是所有的发射（模型）瞄准的位置（所有预测值的期望）与靶心的差距，而variance则是瞄准位置与各个发射实际落靶点的差距（预测值相对于期望的方差）。因此我们期待我们的模型没有bias，而variance尽可能小，这样error才会很小
一般来说简单的模型bias更大，但variance更小，复杂的模型反之，实际上bias很大模型就是欠拟合（Underfitting）的，variance很大模型就是过拟合(Overfitting)的

2、如何判断模型的bias和variance的大小

如果模型无法拟合训练数据那么可能bias很大，则预测模型可能没有包含实际的模型，此时要重新设计模型，考虑更多的因素，让模型更复杂
如果模型与训练数据拟合程度很高，但是预测值与实际值的差别很大，那么可能variance很大，此时要增加训练集规模（可能会很难，但不会影响bias，可以用已有的数据生成更多的数据）或者将模型正则化（改变了模型的范围，可能会伤害bias）

3、应该怎么做

将训练数据分成两组，一组用来训练，一组用来测试模型，选好之后可以用全部训练数据再来训练模型，这样的模型对于测试数据(public testing set)的表现更贴合实际的测试数据表现（实际的测试数据private testing set是没有的）。原则上是，如果少去根据public testing set上的error调整model的话，那你在private testing set上面得到的error往往是比较接近public testing set上的error的

4、k-折交叉验证(k-fold cross Validation)

在机器学习中，将数据集A分为训练集（training set）B和测试集（test set）C，在样本量不充足的情况下，为了充分利用数据集对算法效果进行测试，将数据集A随机分为k个包，每次将其中一个包作为测试集，剩下k-1个包作为训练集进行训练，共计k次。再取所有的err的平均值最小的，最后可以用整个训练数据集训练这个模型。

英俊学霸博

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅深度学习笔记1-3where doea the error come from

1、来源：bias（偏差）和variance（方差）解释：真正的数值像是靶心，而模型预测则是打靶,error（误差）是每个模型（不同的训练集训练出来的模型）的预测值与实际值的差距，bias则是所有的发射（模型）瞄准的位置（所有预测值的期望）与靶心的差距，而variance则是瞄准位置与各个发射实际落靶点的差距（预测值相对于期望的方差）。因此我们期待我们的模型没有bias，而variance尽可能小，这样error才会很小一般来说简单的模型bias更大，但variance更小，复杂的模型反之，实际上bia
复制链接

扫一扫