本文原始论文是:A Structured Self-Attentive Sentence Embedding,都是一些自己的学习笔记,欢迎讨论、指教。
A Structured Self-attentive Sentence Embeddingarxiv.orgSelf-Attention机制:
1、核心在于两个线性变换:
2、线性变换 :
解释:其中r是注意力分布数量,论文建议不低于2个;d_a是指中间参数,可以为任意大小。
论文的核心就是W1和W2,理解这两个即可。
import
Reference:
- 从三大顶会论文看百变Self-Attention