模型/数据训练

最新推荐文章于 2024-07-22 13:03:21 发布

Darkness_01

最新推荐文章于 2024-07-22 13:03:21 发布

阅读量592

点赞数 11

分类专栏：深度学习-人工智能文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Darkness_01/article/details/135768622

版权

深度学习-人工智能专栏收录该内容

10 篇文章 0 订阅

订阅专栏

训练

训练数据可以分为几个阶段

训练集

简单交叉验证集（验证集【dev set】）

测试集

步骤分为：

对训练集执行训练算法

通过验证集选择最好的模型，经过充分验证选择了最终模型

选择模型后，在测试集上进行评估，对最终所选定的神经网络系统作出无偏评估，如果不需要无偏评估，也可以不做测试集

在大数据时代，随着数据量的增加，对于训练数据时的三个集的比例也随之发生了改变，验证集和测试集的比例随之不断减小

当数据量过百万时，其比例可以达到，训练集99.5%，验证集和测试集各占0.25%，或者验证集0.4%，测试集0.1%

数据集规模较小的可以适用于传统分类比例，60%/20%%/20%

在训练数据时，要确保验证集和测试集的数据来自于同一分布

偏差、方差

偏差高，称为欠拟合

并不能很好地拟合该数据集

方差较高，数据过度拟合，称为过拟合

在上述两种拟合中间还有一种拟合

复杂程度适中，数据拟合适度，，称为适度拟合，是介于过拟合和欠拟合中的一种

可以通过下述两个指标，来进行理解偏差和方差

训练集误差

验证集误差

就拿识别图片来判断是否是猫的案例进行举例

（偏差：错误率的高低，方差：两个错误率之间的差值大小）

1.假定训练集错误率为1％，验证集错误率为11%

这种情况下，训练集设置很好，而验证集相对较差，可能过度拟合了训练集，验证集并没有充分利用交叉验证集的作用，像这种情况我们就称为高方差

2.假定训练集错误率为15％，验证集错误率为16%

在这种情况下，人的错误率几乎为0，训练数据的拟合度不高，就是数据欠拟合，就可以说这种算法偏差比较高，相反他对验证集的结果却是合理的，

3.假定训练集错误率为15％，验证集错误率为30%

在这种情况下，认为这种算法的偏差比较高，因为它在训练集上的结果不理想，且方差也很高

4.假定训练集错误率为0.5％，验证集错误率为1%

这种情况下，方差和偏差都比较低

一般来说最优（optimal）误差，也被称为贝叶斯（Bayes）误差

首先通过查看训练集误差，判断数据拟合情况，当完成训练集开始验证集时，就可以判断方差是否过高，以上分析的前提都是假设贝叶斯误差误差很小，训练集和验证集数据来自相同分布，如果没有这些假设作为前提，分析过程将会更复杂

蓝色的分类器，会产生高偏差，因为数据拟合低，像这种接近线性的分类器，数据拟合度低，而紫色的分类器，会过度拟合部分数据，用紫色的线画出的分类器，具有高偏差和高方差的特点

偏差高是因为它是一条几乎线性的分类器，并为拟合数据

在初始模型训练完成后，我们需要知道算法的偏差高不高

如果偏差高，既要评估训练集或训练数据的性能，如果偏差确实高甚至无法拟合训练集，需要做的事就是选择一个新网络，必须去尝试不同的模型，可能有用也可能没用，不断尝试，直到找到合适的模型，解决掉偏差问题，从而可以拟合数据

一旦偏差降低到可以接受的程度，就可以检查方差有没有问题，为了评估方差，我们要查看验证集性能，如果方差高，最好的解决方法就是采用更多数据，但有时我们无法获得更多数据，我们也可以尝试通过正则化来减少过拟合。

如果能找到更合适的神经网络框架，可能会同时减少方差或偏差问题

总之就是需要不断地尝试直到找到一个低偏差低方差的网络模型

高偏差和高方差是两种不同的情况，在解决问题时，需要在后续解决问题时采取不同的方案，通常会采取训练验证集来诊断算法是否存在偏差或方差问题，然后根据结果选择部分方法

关注

11
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Darkness_01 CSDN认证博客专家 CSDN认证企业博客

码龄3年

13: 原创

146万+: 周排名

20万+: 总排名

1万+: 访问

: 等级

337: 积分

145: 粉丝

206: 获赞

5: 评论

174: 收藏

私信

关注

热门文章

分类专栏

深度学习-人工智能 10篇
算法设计 3篇

最新评论

超参数（Hyperparameters）与参数（parameters）
CSDN-Ada助手: 恭喜您写了这篇关于超参数和参数的博客！对于深入了解机器学习和深度学习的朋友们来说，这篇文章肯定会有所帮助。不过，我想建议您在下一篇博客中可以考虑分享一些实际案例或者应用场景，让读者更直观地理解超参数和参数的重要性。希望您能继续保持创作，期待您更多精彩的文章！
GS算法——稳定匹配
CSDN-Ada助手: “恭喜您写了这么有深度的一篇博客！GS算法的稳定匹配是一个很有意思的话题，您对它的深入探讨让我受益匪浅。希望您能继续保持创作的热情，也希望能够看到更多关于算法的分享。或许下一步可以尝试探讨一下稳定匹配在实际生活中的应用，这样会更加贴近我们的日常生活，也能让更多人受益。”
深度学习（激活函数）
CSDN-Ada助手: 恭喜您写了第5篇博客！深度学习中的激活函数是一个很有深度的话题，您对这个主题的探索让我受益匪浅。希望您可以继续分享更多关于深度学习的知识，也可以考虑写一些实践案例或者对新兴技术的探讨，这样会更加丰富您的博客内容。期待您的下一篇作品！
深度学习（神经网络的表示及输出）
CSDN-Ada助手: 恭喜您写下了第四篇博客！标题“深度学习（神经网络的表示及输出）”听上去非常有趣。通过阅读您的博客，我对神经网络的表示和输出有了更深入的了解。您的解释方式非常清晰，让我能够轻松理解这个复杂的主题。希望您能继续坚持写作，我非常期待您下一篇博客的发布！如果可以的话，我建议您在下一篇博客中探讨一下深度学习在自然语言处理领域的应用。再次感谢您的分享，并祝您一切顺利！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
深度学习（神经网络）
CSDN-Ada助手: 恭喜你写了第三篇博客，“深度学习（神经网络）”！持续创作是一个很了不起的成就，你已经展现了对这个领域的热情和深入研究。在你的博客中，我发现了许多有趣的观点和见解，对于初学者来说，这无疑是一份宝贵的知识分享。接下来，我建议你可以继续深入探索深度学习的其他方面，比如不同的神经网络结构、优化算法、迁移学习等等。此外，你也可以考虑将深度学习与其他领域结合，如自然语言处理、计算机视觉等，这将为读者提供更多应用场景和实际案例。再次恭喜你的持续创作，期待你在未来的博客中继续分享你的见解和经验！请保持谦虚的态度，因为深度学习领域有很多仍待我们去探索和学习。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。