注意力机制

最新推荐文章于 2024-07-25 10:35:28 发布

歌者文明

最新推荐文章于 2024-07-25 10:35:28 发布

阅读量848

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42581560/article/details/133238667

版权

概念没什么好说的，反正大家都会说，具体实战怎么写才是最为重要的

1.自注意力

假设有一组数据，都是一维的向量，这个向量可能是一个样本，可能是其他什么，都无所谓。

假设有一组一维向量x1,x2,x3,x4,x5;

第一步:他们两两之间先进行点积，则可以得到一个5*5的矩阵，每一个向量都有一个与其他向量对应的分数，这个分数叫做注意力分数，比如x3的注意力分数为[x3.*x1,x3.*x2,x3.*x3,x3.*x4,x3.*x5],要记住，这是内积，也就是点乘。

第二步：进行缩放，这一步可以用各种方法，比如使用softmax函数

第三步：加权求和，对每一组向量进行加权求和

#X是一维向量
def softmax(X):
    return np.exp(X)/np.sum(np.exp(X))

def self_attention(X):
    output = np.zeros_like(X)
    for i, pivot_vector in enumerate(X):
        scores = np.zeros(len(pivot_vector))
        for j, vector in enumerate(X):#求第i向量其他向量之间的内积
            scores[j] = np.dot(pivot_vector, vector)
        scores /= np.sqrt(X.shape[1])#
        scores = softmax(scores)#对内积进行缩放
        new_vector = np.zeros(shape=pivot_vector.shape)
        for j, x in enumerate(X):#利用注意力分数加权求和--也就是特征的重要性程度
            new_vector += x * scores[j]
        output[i] = new_vector
    return output

看代码比较容易理解，第二步的缩放过程就是用注意力分数除以特征个数的平方，然后经过softmax缩放，得到当前向量的分数，相当于它和其他向量之间的关系分析(姑且这么形容吧)，第三步的求和，是用每一组的向量去乘以对应的分数，然后累加起来相当于关联到了了每一个特征向量的内容(个人理解),关联度是按照之前的分数来的。

查询-键-值模型

outputs = sum(C* pairwise(A, B))

这个表达式是上面那一段代码的总结，可以解释为对于A的每一个向量，与B的相关程度，然后利用这个相关程度的分数对C进行加权求和，A相当于查询(Q)，B相当于键(K)，C相当于值(V)