考虑整个 sequence 长度的内容
可以多层 self attention 叠加 attention is all you need
1, dafada
alpha : attention score 代表两个输入的关联性
b1~b4 并行产生
Muti-head self attention
Positional Encoding
No position information in self attention
each position has a unique position vector e^i
Truncated self attention 并不需要看整句话,只需要考虑小范围数据,加快训练速度
self attention 适用于输入为 vector set
影像也可以看成一个 vector set ,每一个pixel 都可以看成一个vector
CNN是简化版的 self attention, CNN相对是小的 model 适合数据集小的情况
CNN 的model小,弹性小,适合数据比较小的情况
self attention 比 RNN更 平行处理输入数据,运算速度更快
很多架构从 RNN改成 self attention
self attention 变形很多, 运算量非常大