论文阅读笔记-Rethinking Self-Attention for Transformer Models

前言

Transformer自从被提出,就火到现在,它的关键在于 query-key-value 的点积注意力,token与token之间被完全连接,能够对远距离的依赖关系进行建模。Transformer在到处都是黑箱的深度学习领域,可以说一个解释性比较强的模型之一了。而作为Transformer核心的组件,Self-Attention被许多人反复研究来研究去,随处可见的资料貌似已经把它解释的很好的,但事实真的这样么?本文对自注意力机制做了一些探索,里边的结果也许会颠覆我们对自注意力的认知。

前情提要

首先我们要明白点积的几何意义,两个向量越相似,他们的点积越大,Self-Attention结构就是利用Q,K,V计算点积,Self-Attention就是计算一个向量(可以理解为一个词)与其它向量的点积,即相似性。下面给出其公式:
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V
注意了,完整的Self-Attention中,是对同一个 X ∈ R n × d X\in\mathbb{R}^{n\times d} XRn×d 通过不同的投影矩阵 W q , W k , W v ∈ R d × d ′ W_q,W_k,W_v\in\mathbb{R}^{d\times d'} Wq,Wk,WvRd×d得到 Q = X W q , K = X W k , V = X W v Q=XW_q,K=XW_k,V=XW_v Q=XWq,K=XWk,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨痕_777

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值