2024.3.24 机器学习周报

目录

引言

Abstract

一、文献阅读

1、题目 

2、引言

3、创新点

4、模型架构

4.1 Encoder and Decoder Stacks

4.2 Attention—注意力机制

5、实验

6、结果

二、Self-attention

1、什么是self-attention

2、例子(x2→z2)

3、矩阵批量处理

总结

引言

本周复现论文代码和针对transfomer阅读和回顾一篇了关于自注意力机制的文献,Transformer只基于单独的attention机制,将一个序列的不同位置联系起来,以计算序列的表示,成功的运用到了很多任务上,包括阅读理解、抽象摘要、语篇蕴涵和学习任务无关的句子表征等。

Abstract

This week, I reproduced the code of the paper and reviewed a literature on self attention mechanisms for Transformers. Transformers are based solely on a separate attention mechanism, linking different positions of a sequence to calculate its representation. They have been successfully applied to many tasks, including reading comprehension, abstract abstracts, discourse implications, and sentence representations unrelated to learning tasks.

一、文献阅读

1、题目 

Attention Is All You Need

2、引言

显性序列转导模型是基于复杂的递归或包括编码器和解码器的卷积神经网络。最好的执行模型还通过注意力连接编码器和解码器机械装置我们提出了一种新的简单网络架构Transformer,仅基于注意力机制,省去了重复和卷积完全在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更可并行,并且需要显著更少的训练时间。我们的模型在WMT 2014英德语翻译任务中实现了28.4 BLEU,比现有的最佳结果有所改进,包括合奏,超过2 BLEU。在WMT 2014英法翻译任务中,我们的模型在在8个GPU上进行3.5天的培训,这只是最好的模型从文献。我们证明了Transformer很好地推广到其他任务,通过将其成功应用于英语选区解析大量且有限的训练数据。

3、创新点

  • 通过self-attention,自己和自己做attention,使得每个词都有全局的语义信息
  • 由于self-attention是每个词和所有词都要计算Attention,所以不管他们中间有多长距离,最大的路径长度也都是1,可以捕获长距离依赖关系
  • 提出multi-head attention,可以看成attention的ensemble版本,不同head学习不同的子空间语义

4、模型架构

模型总体架构如下图所示,整个网络架构中使用堆叠的self-attention层、point-wise和全连接层,分别用于encoder和decoder。

4.1 Encoder and Decoder Stacks

编码器 encoder:

将一个长为n的输入(如句子),序列(x1, x2, … xn)映射为

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值