![96d75d588da1a5f8e118225fe248ade2.png](https://img-blog.csdnimg.cn/img_convert/96d75d588da1a5f8e118225fe248ade2.png)
本文是参考文献[1]的阅读笔记。
背景
可以在参考文章[2]中详细学习Transformer。本文下一部分也会对Transformer layer做简要介绍。
Transformer的出现使得NLP领域往前迈了一大步,这其中的功劳,就是Transformer中使用的多头注意力机制。
但是,在Transformer的每一个单元中,除了多头注意力机制之外,还有一个全连接层,全连接层在注意力层之后如下图所示
![cb4ea9137440a35e6869d5c256356814.png](https://img-blog.csdnimg.cn/img_convert/cb4ea9137440a35e6869d5c256356814.png)
由于全连接层的参数量巨大,所以Transformer的效果好,可能不一定全是由注意力层带来的,全连接层也可能对最终的好效果有所帮助。
那么,可不可以去掉全连接层或者替代全连接层从而可以保持效果的同时降低参数量呢?这就是论文[1]的工作。
Transformer层次
接下来我们先来简要介绍一下Transformer中每一个小层次单元的结构。结构如上图所示。具体步骤为:
- context的信息可以转换为key和value
- 然后对于输入xÿ