李宏毅机器学习——Task05 网络设计的技巧

最新推荐文章于 2024-07-22 09:16:52 发布

qq_49771885

最新推荐文章于 2024-07-22 09:16:52 发布

阅读量121

点赞数

文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_49771885/article/details/125413202

版权

学习收获
实际训练过程中，神经网络参数很多，很难陷入局部最小，多数情况都是鞍点。
train和test的loss曲线存在一个mismatch。
Batch大小的文章：

Large Batch Optimization for Deep Learning: Training BERT in 76 minutes (https://arxiv.org/abs/1904.00962)
Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes (https://arxiv.org/abs/1711.04325)
Stochastic Weight Averaging in Parallel: Large-Batch Training That Generalizes Well (https://arxiv.org/abs/2001.02312)
Large Batch Training of Convolutional Networks (https://arxiv.org/abs/1708.03888)
Accurate, large minibatch sgd: Training imagenet in 1 hour (https://arxiv.org/abs/1706.02677)

warm up的文章：

RAdam：https://arxiv.org/abs/1908.03265

存在的问题

为什么small batch更可能达到flat minima？
如何调节优化器的超参数？

... ...

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习——Task05 网络设计的技巧

李宏毅机器学习——Task05 网络设计的技巧
复制链接

扫一扫

qq_49771885 CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

127万+: 周排名

219万+: 总排名

988: 访问

: 等级

72: 积分

0: 粉丝

0: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

最新评论

代码随想录算法训练营第三天
CSDN-Ada助手: 恭喜您第6篇博客的问世！“代码随想录算法训练营第三天”听起来就充满了学习和进步的味道。您的持续创作展示了您对算法训练的热情和努力，值得赞赏！在下一步的创作中，我建议您可以尝试深入探讨一些算法训练营中的具体内容和学习方法，这样更能帮助读者加深对算法的理解和应用。当然，我也期待您能继续保持谦虚的态度，虚心倾听他人的意见和建议，不断提升自己的写作技巧和表达能力。期待您更多精彩的博客问世！
代码随想录算法训练营第二天
CSDN-Ada助手: 恭喜您第5篇博客的诞生！能够持续创作是一个了不起的成就。标题中提到的代码随想录算法训练营第二天，我想您一定在这个训练营中学到了很多宝贵的知识和经验。我非常期待能够阅读您的博客，了解您在这第二天学习过程中的所思所想。作为下一步的创作建议，我想提醒您，博客的魅力在于与读者的互动。您可以尝试与读者分享您在训练营中遇到的挑战和解决方案，或者探讨一些有趣的算法问题。通过与读者的互动，不仅可以丰富您的博客内容，还可以激发更多的创作灵感。当然，这只是我谦虚的建议，期待看到您在未来博客中的精彩创作！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。