transformer简介

最新推荐文章于 2024-06-15 11:45:11 发布

蒲建建

最新推荐文章于 2024-06-15 11:45:11 发布

阅读量3.6k

点赞数 2

分类专栏：论文阅读

本文链接：https://blog.csdn.net/qq_38455499/article/details/118302610

版权

15 篇文章 1 订阅

订阅专栏

transformer模型起初被提出于2017年google的《Attention ls All you Need》中。论文路径：[pdf]

transformer完全抛弃了CNN，RNN模型结构。起初主要应用在自然语言处理中，后面逐渐应用到了计算机视觉中。

仅仅通过注意力机制（self-attention）和前向神经网络（Feed Forward Neural Network），不需要使用序列对齐的循环架构就实现了较好的performance 。

（1）摒弃了RNN的网络结构模式，其能够很好的并行运算；

（2）其注意力机制能够帮助当前词获取较好的上下文信息。

transformer模型结构：

在CV中采用Transformer的相关工作中主要有两种模型架构。一种是纯Transformer结构（如：Vision Transformer），另一种是将CNNs/主干网与Transformer相结合的混合结构（如：DETR）。

DETR(End-to-End Object Detection with Transformers)，使用Transformers进行物体检测和分割。
Vision Transformer(AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE)，使用Transformer 进行图像分类。
Image GPT(Generative Pretraining from Pixels)，使用Transformer进行像素级图像补全，就像其他GPT文本补全一样。
End-to-end Lane Shape Prediction with Transformers，在自动驾驶中使用Transformer进行车道标记检测

关注