注意力机制在softmax时需要除以一个根号8的作用

推断:从数学公式来看,起到一个缩放的效果,那么体现到注意力值上,我个人的理解是可以分散注意力而不至于过于集中某个token

实验:

描述:两组数据,原始得分数据为【8,16,32】,缩放后的数据【1,2,3】,最终看计算出来的值的差别

import numpy as np
 
def softmax(x, axis=1):
    # 计算每行的最大值
    row_max = x.max(axis=axis)
 
    # 每行元素都需要减去对应的最大值,否则求exp(x)会溢出,导致inf情况
    row_max=row_max.reshape(-1, 1)
    x = x - row_max
 
    # 计算e的指数次幂
    x_exp = np.exp(x)
    x_sum = np.sum(x_exp, axis=axis, keepdims=True)
    s = x_exp / x_sum
    return s

 

x = np.array([[8,16,24],[1,2,3]])
np.round(softmax(x),3)

array([[0.   , 0.   , 1.   ],
       [0.09 , 0.245, 0.665]])

结论证明:缩放具备分散注意力的作用;原始注意力值均聚集在得分最高的那个值即24,获得了权重为1;而缩放后,注意力值就分散些

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值