Attention
Attention对比RNN和CNN,分别有哪点你觉得的优势?
对比RNN的是,RNN是基于马尔可夫决策过程,决策链路太短,且单向
对比CNN的是,CNN基于的是窗口式捕捉,没有受限于窗口大小,局部信息获取,且无序
写出Attention的公式?
解释你怎么理解Attention的公式的?
Q:,K:,V:
首先,我们可以理解为Attention把input重新进行了一轮编码,获得一个新的序列
除以的目的是为了平衡qk的值,避免softmax之后过小
qk除了点击还可以直接拼接再内接一个参数
原创
2020-09-25 15:33:15 ·
436 阅读 ·
0 评论