参考资料:
https://blog.csdn.net/longxinchen_ml/article/details/86533005
不完全参考,还有自己在机器翻译的相关知识。
代码:https://luozhouyang.github.io/transformer/
query、key、value都是什么?
在自动问答系统里,attension结构会根据不同的问题,来计算一句话的每个词的权重。再将权重相加得到的向量来作为最后的解。
同样的自动翻译里,每次翻译一个词,翻译每个词时会将这个词当前的状态作为一个问题,即是query,根据query来计算原句子中的每个词的权重,再将value乘以权重加起来作为一个最终特征向量。
因此transformer就是利用了这个机制,直接的在编码阶段也利用这个机制对每个词进行编码,每个词编码时都会结合这个词的value和其他词的关系,数学上的计算就是乘以权重后加起来。
权重怎么求?
在翻译到ai词时,用ai词的query来乘以句子中每个词的key,得到一个值,softmax后就得到权重。
position encorder
直接在value里加个正弦波,类似的东西,可以看如下代码了解:
class PositionalEncoding(nn.Module):
def __init__(self, d_model, dropout=0.1, max_len=5000):
super(PositionalEncoding, self).__init__()
self.dropout = nn.Dropout(p=dropout)
pe = torch.zeros(max_len, d_model)
position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
pe = pe.unsqueeze(0).transpose(0, 1)
self.register_buffer('pe', pe)
def forward(self, x):
x = x + self.pe[:x.size(0), :]
return self.dropout(x)
解码部分
解码的区别就是多了一个encoder-decoder阶段,那个阶段即是已解码到当前词的向量作为query。解码时和正常的rnn架构的类似,都是一个词一个词的解码。