seq2seq
结构通常有编解码器
可以用于语音-文字识别,不同语言文字翻译、语音-文字翻译
输出向量维度由模型决定
用于目标检测
transformer结构
encoder
多个模块处理
具体来说
蓝色输入与经过自注意模块输出做residual相加后,经过层正则化(对一个输入各个维度求均值方差,而不是BN在一个批次同一个维度)
输入到FC层,再跟输入做risidual相加再层正则化
得到最终输出
总的就是如下图(输入加入了顺序考虑,加了位置向量),重复Nx次
可以改进encoder的样子
为什么Layer Norm?
参考
https://zhuanlan.zhihu.com/p/126749311?from_voters_page=true
PowerNorm
https://arxiv.org/pdf/2003.07845.pdf