深度强化学习已经成为RL中的重要分支,未来将继续发展和改进,包括更好的深度网络结构、更高效的训练算法和更好的泛化能力。
摘要
自注意力机制在NLP领域大杀四方,Transformer更是众生平等,但是使用RL算法去优化大规模Transformer网络却是困难重重,本文提出框架修改,超越了基线为LSTM的网络。
1、简介
很多人认为类似于Transformer这种自注意力结构更适合长序列文本操作,不会像RNN会产生梯度消失或者爆炸,所以一直以来,LSTM为RL的首选,Transformer即使在监督学习种也难以优化,本文作者通过对layer normalization,再在Transformer的关键点上加上一个新的门控,通过对比试验发现领先于LSTM。
如上图所示,最左边的是标准Transformer,中间是将layer normalization加入到输入流,最右边是额外加了一个gating layer替代剩余连接。
2、Transformer体系结构和变体
略