多头注意力机制_纯注意力模型

96d75d588da1a5f8e118225fe248ade2.png

本文是参考文献[1]的阅读笔记。

背景

可以在参考文章[2]中详细学习Transformer。本文下一部分也会对Transformer layer做简要介绍。

Transformer的出现使得NLP领域往前迈了一大步,这其中的功劳,就是Transformer中使用的多头注意力机制。

但是,在Transformer的每一个单元中,除了多头注意力机制之外,还有一个全连接层,全连接层在注意力层之后如下图所示

cb4ea9137440a35e6869d5c256356814.png

由于全连接层的参数量巨大,所以Transformer的效果好,可能不一定全是由注意力层带来的,全连接层也可能对最终的好效果有所帮助。

那么,可不可以去掉全连接层或者替代全连接层从而可以保持效果的同时降低参数量呢?这就是论文[1]的工作。

Transformer层次

接下来我们先来简要介绍一下Transformer中每一个小层次单元的结构。结构如上图所示。具体步骤为:

  1. context的信息可以转换为key和value
  2. 然后对于输入xÿ
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值