参考李宏毅老师Transformer 课程连接https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=61
Seq2seq model with Slef-attention
RNN:Hard to paralled RNN考虑整个句子再输出
Using CNN to replace RNN ,CNN可平行化,CNN考虑受限,如果重叠很多层CNN,上层可考虑更多咨询
用self-attention取代原RNN想做的事情,输入是一个sequence,输出也是一个sequence,每个输出也都考虑过整个input,b1和b4可同时被算出
!!!b1,b2,b3,b4可平行(同时)被计算出来
Multi-head Self-attention
上述 input Sequence顺序不重要
ei代表位置信息
将RNN用self-attention layer 取代