自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 Transfomer论文阅读:《Attention Is All You Need》

1. 历史模型工作在机器翻译工作方面,曾经的LSTM,GRU等模型逐渐成为MT领域的绑定模型。但是RNN结构的序列化就意味着对计算并行化的限制,从而导致计算的效率过低。最近可以通过分解技巧和条件计算来提高计算效率。其中后者更是提高了效率。在任务中,注意力机制是引人注意的部分,它能允许在不考虑输入或输出序列距离的情况下对依赖性进行建模。在除了少数情况下的所有情况下,这种注意机制是与循环网络结合使用的。因此Transformer是完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系。2. 模型结构T

2023-08-07 19:47:02 101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除