transformer学习记录

最新推荐文章于 2024-04-26 11:32:18 发布

qq_30362711

最新推荐文章于 2024-04-26 11:32:18 发布

阅读量112

点赞数

分类专栏：自然语言处理应用

本文链接：https://blog.csdn.net/qq_30362711/article/details/111269108

版权

自然语言处理应用专栏收录该内容

5 篇文章 0 订阅

订阅专栏

参考资料：

https://blog.csdn.net/longxinchen_ml/article/details/86533005
不完全参考，还有自己在机器翻译的相关知识。
代码：https://luozhouyang.github.io/transformer/

query、key、value都是什么？

在自动问答系统里，attension结构会根据不同的问题，来计算一句话的每个词的权重。再将权重相加得到的向量来作为最后的解。
同样的自动翻译里，每次翻译一个词，翻译每个词时会将这个词当前的状态作为一个问题，即是query，根据query来计算原句子中的每个词的权重，再将value乘以权重加起来作为一个最终特征向量。

因此transformer就是利用了这个机制，直接的在编码阶段也利用这个机制对每个词进行编码，每个词编码时都会结合这个词的value和其他词的关系，数学上的计算就是乘以权重后加起来。
权重怎么求？
在翻译到ai词时，用ai词的query来乘以句子中每个词的key，得到一个值，softmax后就得到权重。

position encorder

直接在value里加个正弦波，类似的东西，可以看如下代码了解：

class PositionalEncoding(nn.Module):

    def __init__(self, d_model, dropout=0.1, max_len=5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)

        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0).transpose(0, 1)
        self.register_buffer('pe', pe)

    def forward(self, x):
        x = x + self.pe[:x.size(0), :]
        return self.dropout(x)

解码部分

解码的区别就是多了一个encoder-decoder阶段，那个阶段即是已解码到当前词的向量作为query。解码时和正常的rnn架构的类似，都是一个词一个词的解码。

qq_30362711

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
transformer学习记录

参考资料：https://blog.csdn.net/longxinchen_ml/article/details/86533005query、key、value都是什么？在自动问答系统里，attension结构会根据不同的问题，来计算一句话的每个词的权重。再将权重相加得到的向量来作为最后的解。同样的自动翻译里，每次翻译一个词，翻译每个词时会将这个词当前的状态作为一个问题，即是query，根据query来计算原句子中的每个词的权重，再将value乘以权重加起来作为一个最终特征向量。因此transf
复制链接

扫一扫