Attention的两种实现方法

        构建 LSTM + Attention 网络时,有两种Attention的实现方法,attention_1 使用的是原文的公式实现,如下:

def attention_1(x):  # x:[batch, seq_len, hidden_dim * 2] 2:双向lstm
    """
    根据 attention 定义实现
    @param x:
    @return:
    """
    d_k = x.size(-1)  # d_k 为 query 的维度
    k = x.transpose(1, 2)
    att = torch.matmul(x, k) / math.sqrt(d_k)
    att_score = func.softmax(att, dim=-1)
    context = torch.matmul(att_score, x).sum(1)

    return context

           第二种实现方式,依据的公式:

        注意力就是加权求和(有可能是只加权不求和),权重是计算向量之间的相似度。原始的注意力里有Q、K、V。V可以省略,重点是K和Q。K 代表自身,Q 代表其他。计算 Q、K 中的每个向量相似度,得到不同的权重(相似度越大权重越大),给 K 中的每个向量加权。
        当对文本做注意力,文本自身就是K,Q 和 K 是相同的。另外一种方法是《 Hierarchical Attention Networks for Document Classification》提出来的,即attention_2 的依据。
        此时随机初始化 Q,作为context vector,代表整个句子的语义。与句子中每个向量相乘,得到权重,再加权求和。

        模型初始化时,随机生成w_omega 和 u_omega,attention_2 中输入的 x 为 LSTM 网络输出的隐藏层数据,x 点乘 w_omega (省略了上面公式中的 b),通过 tanh 变换,在点乘 u_omega 变换shape 为 batch_size * seq_len * 1,即每个样本中的 token 对应的概率,再通过softmax求和。

# 初始时间步和最终时间步的隐藏状态作为全连接层输入
self.w_omega = nn.Parameter(torch.Tensor(n_hidden * 2, n_hidden * 2))
self.u_omega = nn.Parameter(torch.Tensor(n_hidden * 2, 1))
nn.init.uniform_(self.w_omega, -0.1, 0.1)
nn.init.uniform_(self.u_omega, -0.1, 0.1)
def attention_2(self, x):  # x:[batch, seq_len, hidden_dim * 2]
    """
    根据 attention 公式实现
    @param x:
    @return:
    """
    u = torch.tanh(torch.matmul(x, self.w_omega))  # [batch, seq_len, hidden_dim * 2], q·w 并取得相似度, 2:双向lstm
    att = torch.matmul(u, self.u_omega)  # [batch, seq_len, 1],
    att_score = func.softmax(att, dim=1)
    scored_x = x * att_score  # [batch, seq_len, hidden_dim*2]
    context = torch.sum(scored_x, dim=1)  # [batch, hidden_dim*2]

    return context

        使用 lstm + attention 网络做多分类任务,使用attention_1 (即 attention 定义)的效果优于 attention_2 (公式方法) 效果(单纯实验的效果,不确定是否有普遍性)。

参考:

pytorch实现LSTM+Attention文本分类_lstm+attention +cnn文本分类pytorch_明日何其多_的博客-CSDN博客

https://www.cnblogs.com/douzujun/p/13511237.html#autoid-2-2-0

Coordinate Attention模块是一种自注意力机制,它可以在注意力机制中加入空间坐标信息,使模型能够更好地理解输入数据的空间结构。具体实现步骤如下: 1. 输入特征图的维度为 [batch_size, channels, height, width],将其转换为 [batch_size, height * width, channels] 的形式,以便于进行矩阵计算。 2. 对输入特征进行三个线性变换,分别得到三个特征矩阵 Q、K、V,它们的维度都是 [batch_size, height * width, channels]。 3. 将特征矩阵 Q、K 通过矩阵乘法得到注意力矩阵 A,其中矩阵乘积的维度为 [batch_size, height * width, height * width],每个元素 a_ij 表示第 i 个位置与第 j 个位置的注意力权重。 4. 将注意力矩阵 A 与特征矩阵 V 相乘,得到加权特征矩阵 C,其中矩阵乘积的维度为 [batch_size, height * width, channels],每个元素 c_i 表示第 i 个位置的加权特征。 5. 将加权特征矩阵 C 和原始特征矩阵 X 相加,得到最终特征矩阵 Y,其中矩阵的维度为 [batch_size, height * width, channels],每个元素 y_i 表示第 i 个位置的最终特征。 在这个过程中,可以将空间坐标信息加入到特征矩阵中,使得模型能够更好地感知输入数据的空间结构。具体实现方式是,将特征矩阵 Q、K、V 中的每个位置 i 的行、列坐标分别用两个向量表示,然后将它们与特征向量拼接在一起,得到新的特征矩阵,即 Q_c、K_c、V_c。在注意力计算时,使用 Q_c 和 K_c 计算注意力矩阵 A,然后将 A 与 V_c 相乘,得到加权特征矩阵 C_c。最后,将 C_c 和 X_c 相加,得到最终特征向量 Y_c。通过这种方式,模型可以同时感知特征向量和它们的空间坐标信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值