Task2 Transformer模型介绍理解

本文详细介绍了Transformer模型,探讨了它为何优于RNN和CNN,重点解析了Self-Attention机制、多头注意力以及位置编码。Transformer通过完全依赖Self-Attention和全连接层,实现了序列建模的并行处理,提高了训练效率。
摘要由CSDN通过智能技术生成

文章前言

  • 该篇博客只为了记录自己学习Transformer的笔记,供自己日后复习,也给需要学习Transformer的小伙伴一点参考。
  • 博客的资料来自《Attention Is All You Need》以及Datawheal的学习资料
  • 如果觉得有帮助到大家的,欢迎动动小手最下方一键三连哈谢谢
    在这里插入图片描述

从问题出发来了解背景

问题一.为什么要提出Transformer模型

Transformer模型是基于注意力机制的,不用到RNN和CNN等神经网络结构,同时更加并行,训练时间更少。固有的序列性质排除了训练示例中的并行化, 因为内存限制限制了示例的批处理,使得这个约束在较长的句子中尤为致命。Transformer采取的这种注意力机制允许对依赖关系进行建模,而不去考虑它们在输出或者输入中的距离。

问题二.Transformer与LSTM最大的区别

LSTM的训练是迭代的,是一个字接一个字的来,当前这个字过完LSTM单元才可进行下一个字。
而Transformer的训练是并行的,所有字是同时训练的。这样就加快了计算效率,transformer使用了位置编码来理解语言的顺序,使用Self-Attention和全连接层来进行计算。

问题三.Transformer模型核心Self-Attention简介

自注意(Self-attention),有时也称为内部注意(intra-attention),是一种将单个序列的不同位置联系起来,以计算该序列的表示的注意机制。自我注意已经成功地用于各种任务,包括阅读理解、抽象总结、文本蕴涵和学习任务独立的句子表征。Transformer是第一个完全依靠自我注意来计算其输入和输出的表示而不使用序列对齐的rnn或卷积的转导模型。

从整体宏观上来理解Transformer

一.总的模型结构
Transformer模型主要由编码器(Encoder)和解码器(Decoder)构成,其中编码器和解码器可以有N个。
Encoder负责把自然语言序列映射为隐藏层,含有自然语言序列的数学表达,然后Decoder把隐藏层层再映射为自然语言序列,从而使得我们解决各种问题。

Encoder(编码器)和Decoder(解码器)

  • Encoder的输入是一个向量,输出也是一个向量。第一个Encoder输入的是词向量,后面层的Encoder的输入是前一个Encoder的输出。

  • Encoder由两部分组成:
    Self-Attention Layer
    Feed Forward Neural Network(全连接前馈神经网络,FFNN)
    在这里插入图片描述

  • Decoder和Encoder类似,就只比Encoder多了一层Encoder-Decoder Attention层,这个层能帮助解码器聚集于输入句子的相关部分。

BEV+Transformer模型是一种在视觉检测领域中被广泛应用的模型。它的原理是将视觉图片转换到BEV(鸟瞰图)坐标系下,并使用连续帧编码的方式来获取更丰富的特征信息。这种模型的组合体量较大,需要更多的数据进行训练,并且对AI芯片的推理部署也有更高的要求。\[2\] BEV+Transformer模型在智能驾驶领域非常热门,被认为是无人驾驶低迷期的亮点。它彻底终结了2D直视图+CNN时代,为智能驾驶系统带来了新的突破。这种模型对智能驾驶硬件系统有着重要的影响,需要更强大的AI芯片来支持其推理和计算需求。同时,BEV+Transformer模型的应用也使得智能驾驶系统能够更准确地感知和理解周围环境,提高了驾驶的安全性和效率。\[3\] #### 引用[.reference_title] - *1* *3* [BEV和Transformer对无人驾驶硬件体系的巨大改变](https://blog.csdn.net/CV_Autobot/article/details/129077320)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [BEV+Transformer的发展趋势](https://blog.csdn.net/weixin_41691854/article/details/129921659)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值