3-3 注意力机制--注意力机制的各种变式

目录

传统的注意力分数计算方法: 

变体一:加入权重矩阵W:

变体二:加入一层前馈神经网络:

其余的变体:


传统的注意力分数计算方法: 

e_{i}=s^{T}h_{i}

但是这是基于s和h_{i}的向量维度相同的情况下,如果维度不相同呢?

变体一:加入权重矩阵W:

如果维度不相同,我们就需要在中间加入一个权重矩阵,进而实现相乘

变体二:加入一层前馈神经网络:

这个也是在s和h_{i}维度不等的条件下诞生的,W1和W2的作用就是将s和h_{i}的维度拉到同一维度,最后再经过一个激活函数和一个一维数组相乘即可得到一个标量。

其余的变体:

可以参考机器学习&&深度学习——注意力分数(详细数学推导+代码实现)-CSDN博客 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值