深度学习(五、注意力机制与强化学习以及目前主要应用)

本文探讨了注意力机制在解决信息超载问题中的作用,以及深度强化学习如何结合强化学习和深度学习。AI在语音、图像、文本和视频领域的应用已经取得了显著进展,例如高精度的语音识别和图像身份辨别,但自动问答和文章摘要等技术仍有待成熟。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

注意力机制

由于优化算法和计算能力的限制,神经网络在实践中很难达到通用近似的能力。网络不能太复杂(参数太多)。为了提高网络的能力,分别采用了一些措施,如局部连接、权重共享、汇聚操作等。简单循环神经网络存在长期依赖问题,( LSTM网络)引入一个近似线性依赖的记忆单元来存储远距离的信息。记忆单元的存储能力和其大小相关。如果增加记忆单元的大小,网络的参数也随之增加。
大脑中的注意力:人脑每个时刻接收的外界输入信息非常多,包括来源于视觉、听觉、触觉的各种各样的信息。但就视觉来说,眼睛每秒钟都会发送千万比特的信息给视觉神经系统。人脑通过注意力来解决信息超载问题。
注意力示例
神经网络VS人脑
人脑与机器不严格的对比

深度强化学习

强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标(比如取得最大奖励值)。强化学习就是智能体不断与环境进行交互,并根据经验调整其策略来最大化其长远的所有奖励的累积值。
环境交互
深度强化学习是将强化学习和深度学习结合在一起,用强化学习来定义问题和优化目标,用深度学习来解决状态表示、策略表示等问题。两种不同的结合强化学习和深度学习的方式&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值