P11机器学习--李宏毅笔记(Transformer Encoder)

目录

Encoder

residual connection 

Layer normolization 

Fully Connect network 

Encoder架构 

改进


Transformer也是seq2seq模型的一种,seq2seq模型有着广泛的运用,例如机器翻译,语音辨识,其实大多数问题都能转换成QA(Question Answer)然后用seq2seq解决。

Encoder

Encoder就是整体这一个架构,一个input然后经过Block然后输出再经历Block,下面我们来介绍每个Block里面的内容

residual connection 

将输入传入self-attention,然后输出的α考虑了每一个输入然后再加上它的input这就叫residual connection 

Layer normolization 

将rasidual connection后的值传入norm层,norm层采用的是Layer Normlization,这个和我们之前将的feature normolization不一样,feature normolization是把不同feature的同一dimension拿来算,而Layer Normlization是把同一feature的不同dimension拿来算。

这里的上面写错了,应该是(x-m)/σ

Fully Connect network 

 

把Layer normlization后的结果输出到Full Connect network里然后再进行一次rasidual connect再加起来传入到一个Layer normolization里取然后完成了block的输出

Encoder架构 

这里就是先输入一个然后经历Emd然后加上位置信息传入多头注意力然后经过一个Rasidual +Layernorm,然后输入到FC然后再做Rasidual +Layernorm。

改进

当然现在不是最好的,你可以进行改进

比如说在每一层input前加layer norm。。。。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值