Transformer

最新推荐文章于 2024-07-10 22:17:05 发布

饮尽夏日

最新推荐文章于 2024-07-10 22:17:05 发布

阅读量36

点赞数

分类专栏：深度学习文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/CrazySummerdrink/article/details/134544842

版权

深度学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Transformer不仅很强大，而且允许扩展到更大的尺寸。
它之所以如此强大，是因为它抛弃了之前广泛采用的循环网络和卷积网络，而采用了一种特殊的结构----注意力机制来建模文本。
它是一个利用注意力机制来提高模型训练速度的模型。

注意力机制

注意力机制能够让模型知道图像中不同局部信息的重要性。
常见的深度学习模型CNN、RNN、LSTM、AE等，其实都可以归为一种通用框架Encoder-Decoder。

在文本处理领域，有一类常见的任务就是从一个句子生成另一个句子，比如翻译，其中 $x_i$ 是输入单词的向量表示， $y_i$ 表示输出单词。
$Source = <x_1,x_2,...x_m>$
$Target = <y_1, y_2,...y_n>$
Source经过Encoder生成中间的语义编码C。
$C=F(x_1,x_2,...x_m)$
C经过Decoder之后，输出翻译后的句子。在循环神经网络中，先根据C生成 $y_1$ ，再基于（C， $y_1$ ）生成 $y_2$ ，依次类推。
$y_i=G(C,y_1,y_2,...,y_{i-1})$

Soft Attention模型

传统的循环神经网络中

$y_1、y_2、y_3$ 的计算都是基于同一个C，而Source中不同单词对 $y_1、y_2、y_3$ 的影响是不同的，故这不是最好的方案，由此考虑用不同的权重向量来计算 $C_1、C_2、C_3$

$a_{11},a_{12},a_{13})、(a_{21},a_{22},a_{23})、(a_{31},a_{32}，a_{33})$ 的计算方法如下图所示。
模型中： $h_1 = f(Tom),h_2=f(h_1,Chase),h_3=f(h_2,Jerry)$
其中F函数的实现方法有多种，比如余弦相似度、MLP等。

Attention机制的本质

把Source想象成是内存里的一块存储空间，它里面存储的数据按<Key,Value>存储。给定Query，然后取出相应的内容。这里与一般的hash查询方式不同的是，每个地址都只取一部分内容，然后对所有的Value加权求和。

饮尽夏日

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer

Transformer不仅很强大，而且允许扩展到更大的尺寸。它之所以如此强大，是因为它抛弃了之前广泛采用的循环网络和卷积网络，而采用了一种特殊的结构----注意力机制来建模文本。它是一个利用注意力机制来提高模型训练速度的模型。
复制链接

扫一扫