【论文细读】Transformer在强化学习上的缺陷

本文探讨了Transformer在深度强化学习中的优化难题,并提出了框架改进,通过添加门控层增强性能,实验结果显示优于传统的LSTM网络。研究发现,调整层规范化的位置和引入门控机制能有效提升Transformer在RL任务中的表现。
摘要由CSDN通过智能技术生成

        深度强化学习已经成为RL中的重要分支,未来将继续发展和改进,包括更好的深度网络结构、更高效的训练算法和更好的泛化能力。

摘要

        自注意力机制在NLP领域大杀四方,Transformer更是众生平等,但是使用RL算法去优化大规模Transformer网络却是困难重重,本文提出框架修改,超越了基线为LSTM的网络。

1、简介

        很多人认为类似于Transformer这种自注意力结构更适合长序列文本操作,不会像RNN会产生梯度消失或者爆炸,所以一直以来,LSTM为RL的首选,Transformer即使在监督学习种也难以优化,本文作者通过对layer normalization,再在Transformer的关键点上加上一个新的门控,通过对比试验发现领先于LSTM。

         如上图所示,最左边的是标准Transformer,中间是将layer normalization加入到输入流,最右边是额外加了一个gating layer替代剩余连接。

2、Transformer体系结构和变体

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值