【快速入门】Transformer: Attention Is All You Need

  • Transformer → \to 【知名应用】BERT (unsupervised trained Transformer)
    在这里插入图片描述
    • Transformer :seq2Seq model with self-attention, 后续会主要说明 self-attention
    • Transformer的组成:
      Self-attention是 Attention变体,擅长捕获数据/特征的内部相关性
      Self-attention 组成 Multi-head Self-attention
      Multi-head Self-attention 反复利用组成Transforme

  • 【Seq】Sequence:考虑分别用 RNN 和 CNN 处理

    .....
    • 【左图】RNN: hard to parallel (需要序列输入进去处理)
    • 【右图】CNN: replace RNN (单层覆盖范围有限,需要叠多层来扩展覆盖范围)
  • 【replace CNN】Self-attention Layer: 类似双向RNN的作用,但是可并行化

    • 【STEP-1】计算 qkv: q:query, k:key, v:value
      .....
    • 【STEP-2】每一个 q 对每一个 k 做 attention: 如 scaled dot-product attention
      α i , j = q i ⋅ k j / d , d is the dim of q and k \alpha_{i,j}=q^i \cdot k^j / \sqrt{d}, \text{d is the dim of q and k} αi,j=qikj/d ,d is the dim of q and k
    • 【STEP-3】经过 softmax layer:
      α ^ i , j = exp ⁡ α i , j ∑ k exp ⁡ α i , k \hat{\alpha}_{i, j}=\exp{\alpha_{i, j}}\sum_k \exp{\alpha_{i,k}} α^i,j=expαi,jkexpαi,k
    • 【STEP-4】计算输出 b:
      b i = ∑ j α ^ i , j v j b^i = \sum_j \hat{\alpha}_{i,j}v^j bi=jα^i,jvj

  • 矩阵计算版本总结
    在这里插入图片描述

  • 拓展:

    • multi-head Self-attention: 多组 qkv 来关注不同信息
    • positional encoding: α i \alpha^i αi += e i e^i ei, 可以引入位置信息 e i e^i ei

参考资料:

  • 52
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值