深度学习小思1

最新推荐文章于 2022-09-16 10:06:25 发布

S_o_l_o_n

最新推荐文章于 2022-09-16 10:06:25 发布

阅读量2.2k

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/S_o_l_o_n/article/details/121723583

版权

笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

深度学习依赖于数值优化而非理论解析解，简单的MLP模型可能存在参数过多导致优化困难。在有限资源下，合理的模型架构设计至关重要。例如，注意力模型相比MLP可能在复杂序列预测任务上实现更好的效果，需要更少的数据和算力。因此，深度学习的重点在于寻找高效的学习路径，而非理论完备。

摘要由CSDN通过智能技术生成

深度学习目前并没有一个统一的理论框架，没有理论上的解析解，模型的求解依赖于数值优化，因此，对深度学习模型架构的思考不能受限于naive的理论层面，而是应该结合优化算法。
理论上，一个简单的MLP就应该可以拟合出所有的函数关系。但是在正确拟合的前提下，MLP模型架构中需要的参数过多（MLP自身可以组合衍生出其他架构），这会使得路径过多，且过于稀疏，从而通常的随机剃度下降算法的优化路径太多，学习难度会大大的提升，从而在MLP的前提下，难以学得正确的参数。
因此，在算力和数据都有限的前提下，我们需要更加合理的模型架构，通过架构的合理设计，将优化路径范围缩小，使得正确模型的学习更加容易。
所以，深度学习中，理论完备不是重点，重点是，更加高效的学习到规律。条条大路通罗马，那一条才是在现实条件下，有可能快速达到的，这才是重要的。比如，对于一个复杂序列预测任务，我们或许可以在大量数据大量算力的训练下，花了很久才能得到一个较好的MLP模型，但是如果换成了注意力模型，可能相对少量数据少量算力，并且很快的就可以得到一个更好的模型。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习小思1

深度学习目前并没有一个统一的理论框架，没有理论上的解析解，模型的求解依赖于数值优化，因此，对深度学习模型架构的思考不能受限于naive的理论层面，而是应该结合优化算法。理论上，一个简单的MLP就应该可以拟合出所有的函数关系。但是在正确拟合的前提下，MLP模型架构中需要的参数过多（MLP自身可以组合衍生出其他架构），这会使得路径过多，且过于稀疏，从而通常的随机剃度下降算法的优化路径太多，学习难度会大大的提升，从而在MLP的前提下，难以学得正确的参数。因此，在算力和数据都有限的前提下，我们需要更加合理的模型
复制链接

扫一扫

专栏目录

S_o_l_o_n CSDN认证博客专家 CSDN认证企业博客

码龄6年

252: 原创

3万+: 周排名

6699: 总排名

113万+: 访问

: 等级

1万+: 积分

314: 粉丝

755: 获赞

135: 评论

2043: 收藏

私信

关注

热门文章

分类专栏

最新评论

深度分析python UnboundLocalError: local variable ‘x‘ referenced before assignment
三世: 有个重点得强调一下： 1、读取全局变量时，不需要global声明。 2、修改全局变量时，需要global声明。 3、列表、字典等，如果只是修改其中元素，则可以直接使用全局变量，不需要global声明。
python线程锁和进程锁
半两风: 多进程加锁，这个代码有测试跑过吗。错的离谱啊
pandas中对nan空值的判断和陷阱
yinxiuan: 如果我想一次性判断是否为 nan 或者为空, 感觉要分别判断2次..有什么好办法?
python自定义库的打包和安装
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Python中如何控制warning信息在控制台的显示
唐BiuBiu: 设置了action="once"，多进程还是会多次弹出警告，有多少个进程就有多少个警告，这个怎么办？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。