Self-Attention Layer: 能实现和RNN相同的效果
attention:吃query+key,输出一个分数(衡量他两的匹配度,相似度)。再加权和
李宏毅-Transformer-PPT
怎样理解‘可并行’:向量到矩阵
Multi-head Self-attention: 不同head关注的特征不同。和CNN多个filter的思想同。
Self-attention的缺点:没有考虑输入sequence的顺序,邻居和天涯是相同的。
W^P
是参数,但是通常是…
Transformer:
Add & Norm: 将Multi-head Self-attention的输入和输出相加,然后做Layer Normalization
BN: 同一个batch不同data同样的dimension做。向量之间
LN:不需要考虑batch。各个不同dimension mean为0,var为1。向量内部。常和RNN大牌
有了transformer可以硬train生成一个超级长的序列,如维基百科上的文章
下面自监督学习不需要标签,但是效果更好
multi-task learning:把好多资料(训练数据集)合到一起,共同训练一个任务