【transformer笔记】Task02 ：Attention和Transformer

最新推荐文章于 2024-08-19 13:32:52 发布

浪里摸鱼

最新推荐文章于 2024-08-19 13:32:52 发布

阅读量129

点赞数

分类专栏：深度学习文章标签： python 算法深度学习机器学习 transformer

本文链接：https://blog.csdn.net/weixin_42802447/article/details/119774865

版权

21 篇文章 0 订阅

订阅专栏

1. seq2seq模型

seq2seq模型是由编码器（Encoder） 和 解码器（Decoder） 组成

上下文向量的长度取决于编码器 RNN 的隐藏层神经元的数量。

两个输入：

编码器会把更多的数据传递给解码器：编码器把所有时间步的 hidden state（隐藏层状态）传递给解码器，而不是只传递最后一个 hidden state（隐藏层状态）
注意力模型的解码器在产生输出之前，做了一个额外的处理。为了把注意力集中在与该时间步相关的输入部分。解码器做了如下的处理：

查看所有接收到的编码器的 hidden state（隐藏层状态）。其中，编码器中每个 hidden state（隐藏层状态）都对应到输入句子中一个单词。
给每个 hidden state（隐藏层状态）一个分数（我们先忽略这个分数的计算过程）。
将每个 hidden state（隐藏层状态）乘以经过 softmax 的对应的分数，从而，高分对应的 hidden state（隐藏层状态）会被放大，而低分对应的 hidden state（隐藏层状态）会被缩小。

torch.randn(*sizes, out=None) → Tensor
功能：从标准正态分布（均值为0，方差为1）中抽取的一组随机数。返回一个张量

关注