attention的一种实现方式记录

最新推荐文章于 2024-04-27 22:01:34 发布

cyz0202

最新推荐文章于 2024-04-27 22:01:34 发布

阅读量247

点赞数 1

分类专栏：技术问题 # 深度学习文章标签： attention

本文链接：https://blog.csdn.net/cyz0202/article/details/102705907

版权

技术问题同时被 2 个专栏收录

56 篇文章 0 订阅

订阅专栏

深度学习

28 篇文章 0 订阅

订阅专栏

1. ATTENTION的一种结构及计算公式

如下图，原图记得是来自论文Effective Approaches to Attention-based Neural Machine Translation（下图及后续图片直接copy自blog，侵删)
思想是当前信息h_t与前文多个信息h_s进行比对计算，得到对各个前文信息h_s应该有多少关注度，即a_t；利用a_t加权相应的h_s，并累加所有加权后的前文信息，得到综合前文信息c_t，将其与当前信息h_t进行拼接组合进行预测；
上述流程计算方式如下：
这里的注意力其实可以认为指的是a_t，因此需要关注a_t如何计算（上述公式1），a_t计算主要部分是score(h_t, h_s)，score计算常见有三种方式，如下：

2. score的一种实现代码

这里贴出Intel distiller开源实现的score第三种方式的计算代码，输入为两个三维tensor，分别是query和keys，shape分别为[batch_size, query_len, hid_dim] 和 [batch_size, key_len, hid_dim]：

    def calc_score(self, att_query, att_keys):
        """
        Calculate Bahdanau score

        :param att_query: b x t_q x n
        :param att_keys: b x t_k x n

        return b x t_q x t_k scores
        """

        b, t_k, n = att_keys.size()
        t_q = att_query.size(1)
		# 以下进行dimension的扩充；因为这里的query_len 不再是1，而是多个，通过扩充dimension来和keys做笛卡尔积，可以减少代码量和快速计算；
        att_query = att_query.unsqueeze(2).expand(b, t_q, t_k, n)
        att_keys = att_keys.unsqueeze(1).expand(b, t_q, t_k, n)
        # eltwiseadd_qk是一个tensor相加的简单操作（因其他目的做了封装）；之所以相加，是简化了第三种score计算方式，即将上述Wa省略了（注意第三种方式等价于拼接前各自乘以一个W后再相加，如果把各自的w去掉，就是直接相加了）；
        sum_qk = self.eltwiseadd_qk(att_query, att_keys)
		# 做一些归一化
        if self.normalize:
            sum_qk = self.eltwiseadd_norm_bias(sum_qk, self.normalize_bias)
			# self.linear_att 是一个shape为[hid_dim]的tensor
            tmp = self.linear_att.to(torch.float32) 
            linear_att = tmp / tmp.norm()
            linear_att = linear_att.to(self.normalize_scalar)
			# eltwisemul_norm_scaler 乘法封装
            linear_att = self.eltwisemul_norm_scaler(linear_att, self.normalize_scalar)
        else:
            linear_att = self.linear_att
		# self.matmul_score 乘法封装，得到score结果
        out = self.matmul_score(self.tanh(sum_qk), linear_att)  # a.matmul(b)
        return out

还是要自己写一遍加深印象和代码能力

3. 关于注意力可能的改进或者变种

目前的注意力机制似乎要和前文信息的每个字或者每个词进行逐一计算注意力，个人觉得略繁琐，是否可以有块注意力，是否可以利用前面的注意力结果，尤其是在decoding的时候；

P.S 仅供参考，敬请指正，侵删

cyz0202

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
attention的一种实现方式记录

ATTENTION的一种结构及计算公式如下图，原图记得是来自论文Effective Approaches to Attention-based Neural Machine Translation（下图及后续图片直接copy自blog，侵删)思想是当前信息ht与前文多个信息hs进行比对计算，得到对各个前文信息hs应该有多少关注度，即at；利用at加权相应的hs，并累加所有加权后的前文信息...
复制链接

扫一扫