李宏毅 Attention

 考虑整个 sequence 长度的内容

可以多层 self attention 叠加 attention is all you need

1, dafada

alpha  : attention score 代表两个输入的关联性

 

b1~b4 并行产生

 

 

 

 

 Muti-head self attention

 

 

Positional Encoding

No position information in self attention

each position has a unique position vector e^i

 

 Truncated self attention 并不需要看整句话,只需要考虑小范围数据,加快训练速度

self attention 适用于输入为 vector set

影像也可以看成一个 vector set ,每一个pixel 都可以看成一个vector

 

CNN是简化版的 self attention, CNN相对是小的 model 适合数据集小的情况

 

CNN 的model小,弹性小,适合数据比较小的情况 

 

self attention 比 RNN更 平行处理输入数据,运算速度更快

很多架构从 RNN改成 self attention 

 self attention 变形很多, 运算量非常大

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值