目录
Transformer也是seq2seq模型的一种,seq2seq模型有着广泛的运用,例如机器翻译,语音辨识,其实大多数问题都能转换成QA(Question Answer)然后用seq2seq解决。
Encoder
Encoder就是整体这一个架构,一个input然后经过Block然后输出再经历Block,下面我们来介绍每个Block里面的内容
residual connection
将输入传入self-attention,然后输出的α考虑了每一个输入然后再加上它的input这就叫residual connection
Layer normolization
将rasidual connection后的值传入norm层,norm层采用的是Layer Normlization,这个和我们之前将的feature normolization不一样,feature normolization是把不同feature的同一dimension拿来算,而Layer Normlization是把同一feature的不同dimension拿来算。
这里的上面写错了,应该是(x-m)/σ
Fully Connect network
把Layer normlization后的结果输出到Full Connect network里然后再进行一次rasidual connect再加起来传入到一个Layer normolization里取然后完成了block的输出
Encoder架构
这里就是先输入一个然后经历Emd然后加上位置信息传入多头注意力然后经过一个Rasidual +Layernorm,然后输入到FC然后再做Rasidual +Layernorm。
改进
当然现在不是最好的,你可以进行改进
比如说在每一层input前加layer norm。。。。