深度学习小思1

深度学习依赖于数值优化而非理论解析解,简单的MLP模型可能存在参数过多导致优化困难。在有限资源下,合理的模型架构设计至关重要。例如,注意力模型相比MLP可能在复杂序列预测任务上实现更好的效果,需要更少的数据和算力。因此,深度学习的重点在于寻找高效的学习路径,而非理论完备。
摘要由CSDN通过智能技术生成

深度学习目前并没有一个统一的理论框架,没有理论上的解析解,模型的求解依赖于数值优化,因此,对深度学习模型架构的思考不能受限于naive的理论层面,而是应该结合优化算法。
理论上,一个简单的MLP就应该可以拟合出所有的函数关系。但是在正确拟合的前提下,MLP模型架构中需要的参数过多(MLP自身可以组合衍生出其他架构),这会使得路径过多,且过于稀疏,从而通常的随机剃度下降算法的优化路径太多,学习难度会大大的提升,从而在MLP的前提下,难以学得正确的参数。
因此,在算力和数据都有限的前提下,我们需要更加合理的模型架构,通过架构的合理设计,将优化路径范围缩小,使得正确模型的学习更加容易。
所以,深度学习中,理论完备不是重点,重点是,更加高效的学习到规律。条条大路通罗马,那一条才是在现实条件下,有可能快速达到的,这才是重要的。比如,对于一个复杂序列预测任务,我们或许可以在大量数据大量算力的训练下,花了很久才能得到一个较好的MLP模型,但是如果换成了注意力模型,可能相对少量数据少量算力,并且很快的就可以得到一个更好的模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值