NLP（三）attention机制

LightYoungLee

已于 2023-02-04 16:09:32 修改

阅读量686

点赞数 1

分类专栏： NLP 文章标签：深度学习

于 2021-05-17 17:02:52 首次发布

本文链接：https://blog.csdn.net/weixin_37688445/article/details/116938969

版权

NLP 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

attention

核心思想

attention机制有三个重要组成部分： $Q$ -> 输入 $q u ery$ ， $K$ -> 系数 $k ey$ ， $V$ -> 知识库取值 $v a l u e$ 。具体目的为，把一个 $q u ery$ 翻译成 $v a l u e$ 的组合结果，过程中用到系数 $k ey$ 进行加权，示意图如下所示：

下图为细节展开，可以看出 $q u ery$ 通过 $k ey$ 和变换函数 $F$ 后得到score(s)，经softmax归一化后得到系数 $a$ ，之后再将 $a$ 与 $v a l u e$ 加权得到最终的attention value。

优缺点

优点

一步到位的全局联系捕捉
并行计算减少模型训练时间
模型复杂度小，参数少

缺点

不能捕捉语序顺序的相关信息，因为其本身是一个词袋模型。

算法实现

import tensorflow as tf


def attention(Q, K, scaled_=True):
    """ attention implementation
    :param Q:
    :param K:
    :param scaled_: whether scaling logit by sqrt{dim of K}
    :return: attention weight
    """
    logit = tf.matmul(Q, K, transpose_b=True)  # [batch_size, sequence_length, sequence_length]

    if scaled_:
        d_k = tf.cast(tf.shape(K)[-1], dtype=tf.float32)
        logit = tf.divide(logit, tf.sqrt(d_k))  # [batch_size, sequence_length, sequence_length]

    weight = tf.nn.softmax(logit, dim=-1)  # [batch_size, sequence_length, sequence_length]

    return weight

self-attention

核心思想

self-attention借助attention机制，计算每个单词与其他所有单词的关联，例如在翻译(I am on the bank of the river)的任务里，当遇到bank时，river就有较高的attention-score。利用这些attention-score就能得到一种加权表示，然后放到一个forward-network中得到新的表示，这一表示会考虑到上下文信息。

借用知乎大神的思路，我们的任务是得到"thinking"和"machines"两个单词的self-attention取值。第一步获取这两个单词的embeddding $x_1$ 和 $x_2$ ，对于某一个 $x$ ，分别与 $W^Q$ 、 $W^K$ 、 $W^V$ 相乘得到三个矩阵 $Q, K, V$ ，示意图如下所示。

之后经过一系列非线性变换得到最终的 $z$ ，示意图如下所示。

上述非线性变换的核心过程如下所示。

算法实现

def self_attention(data, **config):
    """ self_attention implementation

    :param data: input data
    :param config: param container
    :return: self attention weight
    """
    Q = tf.layers.dense(data, config['hidden_dim'])  # [batch_size, sequence_length, hidden_dim]
    K = tf.layers.dense(data, config['hidden_dim'])  # [batch_size, sequence_length, hidden_dim]
    V = tf.layers.dense(data, config['n_classes'])  # [batch_size, sequence_length, n_classes]

    weight = attention(Q, K)  # [batch_size, sequence_length, sequence_length]
    s_attn = tf.matmul(weight, V)  # [batch_size, sequence_length, n_classes]

    return s_attn

multi-head attention

multi-head attention核心思想为一系列attention的叠加和拼接，示意图如下所示。
在这里插入图片描述

参考

LightYoungLee

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
NLP（三）attention机制

核心思想把一个query翻译成source的组合结果，组合过程中会用到的系数为key，示意图如下所示：下图为上图的细节展开，可以看出query通过一系列key和变换函数F后得到一系列的score(s)，经过softmax归一化之后得到一系列的系数a，之后再将这些系数一一与value相乘并相加得到最终的attention value。优缺点优点一步到位的全局联系捕捉并行计算减少模型训练时间模型复杂度小，参数少缺点不能捕捉语序顺序的相关信息，因为其本身是一个精致的词袋模型。self-
复制链接

扫一扫