自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 《Attention Is All You Need》(Vaswani et al.,2017)Transformer架构论文综述

我的理解是在用RNN(递归神经网络)处理长文本时需要考虑他们输入和输出序列的距离,而且必须按顺序计算,前一个有结果时才能进行下一个,无法同时进行,而CNN(卷积神经网络)能同时关联相邻的信号,但这就导致学习距离远的两个信号之间的关联变得困难。Transformer以编码器(提取输入的序列)和解码器(根据编码器结果生成序列)堆叠为结构,就在翻译,摘要等多种任务中超越了RNN和CNN,并且以多头注意力(可以同时运行多个自注意力)取代了编码器——解码器架构中最常用的递归层。

2025-04-16 21:59:52 179

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除