Self-Attention和Transformer

本文深入探讨了Transformer模型,特别是Self-Attention机制,如何通过计算Query、Key和Value之间的注意力权重来捕获序列中的依赖关系,提高模型在NLP任务中的表现。Transformer的Encoder和Decoder结构以及Self-Attention层的实现步骤逐一解析。
摘要由CSDN通过智能技术生成


广义注意力机制模型

  • 最初Attention机制的引入,为了解决机器翻译中将长序列向定长向量转化而造成的信息损失的瓶颈。Attention即将注意力关注于翻译部分对应的上下文。关键的操作是计算encoder与decoder state之间的关联性的权重,得到Attention分布,从而对于当前输出位置得到比较重要的输入位置的权重,在预测输出时相应的会占较大的比重。
  • 通过Attention机制的引入,打破了只能利用encoder最终单一向量结果的限制,从而使模型可以集中在所有对于下一个目标单词重要的输入信息上,使模型效果得到极大的改善。

Self-Attention

  • 以QKV模型来理解Attention机制,假定输入为Q (Query), Memory中以键值对(K, V)形式存储上下文信息,注意力机制可以看作是Query到一系列键值对(Key, Value)上的映射函数。
    在这里插入图片描述
    Attention Value = Q K T V QK^TV QKTV
    Attention本质为序列中的每一个元素分配一个权重系数, Q K T QK^T QKT可看做Value的权重系数。
  • Attention Value (Q, K, V) = s o f t m a x ( Q K T d K ) V softmax(\frac
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值