transformer学习记录

参考资料:

https://blog.csdn.net/longxinchen_ml/article/details/86533005
不完全参考,还有自己在机器翻译的相关知识。
代码:https://luozhouyang.github.io/transformer/

query、key、value都是什么?

在自动问答系统里,attension结构会根据不同的问题,来计算一句话的每个词的权重。再将权重相加得到的向量来作为最后的解。
同样的自动翻译里,每次翻译一个词,翻译每个词时会将这个词当前的状态作为一个问题,即是query,根据query来计算原句子中的每个词的权重,再将value乘以权重加起来作为一个最终特征向量。

因此transformer就是利用了这个机制,直接的在编码阶段也利用这个机制对每个词进行编码,每个词编码时都会结合这个词的value和其他词的关系,数学上的计算就是乘以权重后加起来。
权重怎么求?
在翻译到ai词时,用ai词的query来乘以句子中每个词的key,得到一个值,softmax后就得到权重。

position encorder

直接在value里加个正弦波,类似的东西,可以看如下代码了解:

class PositionalEncoding(nn.Module):

    def __init__(self, d_model, dropout=0.1, max_len=5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)

        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0).transpose(0, 1)
        self.register_buffer('pe', pe)

    def forward(self, x):
        x = x + self.pe[:x.size(0), :]
        return self.dropout(x)

解码部分

解码的区别就是多了一个encoder-decoder阶段,那个阶段即是已解码到当前词的向量作为query。解码时和正常的rnn架构的类似,都是一个词一个词的解码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值