深度学习-图像分类篇二:注意力机制

图像处理中的注意力机制

Transformer&Self-Attention

Self-Attention以及Multi-Head Attention
Self-Attention

在这里插入图片描述
在这里插入图片描述

  • 不同任务(李宏毅的注意力机制)
    • 1.输入n输出n:sequence labeling
    • 2.输入n输出1:标签
      -3. 输入n输出m:seq2seq
  • 针对sequence labeling问题可以开一个window把附近的词都考虑到,例如:I saw a saw标记词性,但这样window很大会带来很多参数和overfit,所以引入注意力self-attention
    在这里插入图片描述
  • 找到与自己相关的每个词的相关性,注意重要的信息
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 注意整个计算过程是可以并行的
    在这里插入图片描述
  • 矩阵的角度思考
    • qkv的计算,每一个a都要产生对应的qkv,w权重是学出来的
      在这里插入图片描述
    • 计算相似度的本质是向量的内积(点乘):
      在这里插入图片描述
      在这里插入图片描述
  • 总结self-attention
    • 找出qkv:使用学习的权重
    • 找到相关性的得到weight
    • 最后对v做加权和(weighted sum)
      在这里插入图片描述
Multi-Head Attention
  • 2 head举例
    在这里插入图片描述
    在这里插入图片描述
  • 到这里会发现一直没有体现位置信息(a1和a2,与a1和a3的计算没有区别),所以要对位置进行编码
    • hand-crafted(人为地)
      在这里插入图片描述
  • 应用(输入是一个很长的向量)
    • nlp的bert
    • 图像(图看成向量集vector set)
Transformer
  • seq2seq处理的问题
    在这里插入图片描述
    在这里插入图片描述
  • 模型结构
  • 在这里插入图片描述
Encoder

在这里插入图片描述
- self-attention的做法
在这里插入图片描述
- transform的做法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Decoder
  • Autoregressive
    • Decode的作用
      在这里插入图片描述
    • Decoder的结构
      在这里插入图片描述
    • Mask self-attention
      在这里插入图片描述
      在这里插入图片描述
    • 为什么要使用mask:因为输入是一个一个产生的b2产生前没有a3,a4(只能考虑左边)
      在这里插入图片描述
  • 结束标志
    在这里插入图片描述
  • NAT
    • 可以并行
      在这里插入图片描述
      在这里插入图片描述
  • 链接Encoder和Decoder
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
train

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 技巧
    在这里插入图片描述
    • 复制一部分内容
      在这里插入图片描述
      -Beam Search
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
  • 训练和测试不一致:训练都是正确的,测试可能有错误的
    • 可以给点错误的
      在这里插入图片描述
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值