NLP中Transformer理解以及CV中Transformer(仅供自己学习用)

本文深入探讨Transformer模型,强调其在NLP中的应用和优势,包括自注意力机制、Encoder-Decoder结构以及多头注意力。Transformer解决了RNN的顺序计算问题,提高了并行性,适用于机器翻译和解决长期依赖问题。此外,Transformer在CV领域的潜力也被提及,尽管存在忽视局部特征和位置信息的缺点。
摘要由CSDN通过智能技术生成


提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

NLP中Transformer理解


提示:以下是本篇文章正文内容,下面案例可供参考

一、Transformer

1. 是什么

更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder,并在机器翻译中取得了BLEU值得新高。Transformer是第一个完全依靠Self-attention而不使用序列对齐的RNN或卷积的方式来计算输入输出表示的转换模型。

2. 为什么

作者采用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算限制为是顺序的,也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题:
1.时间片t 的计算依赖t-1时刻的计算结果,这样限制了模型的并行能力;
2.顺序计算的过程中信息会丢失,尽管LSTM等门机制

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值