【论文研读总结】基于结构位置的自注意力机制

文章介绍了一种结合自注意力网络(SANs)和结构编码的新方法,通过在依赖树中表示单词间的绝对和相对位置,提升了NIST中文到英语和WMT14英语到德语翻译任务的性能。
摘要由CSDN通过智能技术生成

目录

论文简介与作者

一句话简介

作者

摘要概括

区别

符号定义与公式

1.Self-Attention

2.Sequential Position Encoding(顺序位置编码)

关于序列中元素的绝对或相对位置的信息注入SAN

结构位置表述(采用树结构表示)

绝对位置定义

相对位置定义

3.将结构化PE集成到SAN中

绝对位置编码

使用非线性函数来融合序列和结构位置表示

相对位置编码

实验

数据集

实验步骤 

实验结果分析

个人总结

备注

论文简介与作者

一句话简介

SANs(Self Attention Networks, 自注意网络)+结构编码策略

作者

 

摘要概括

SANs(自注意网络),我们使用依赖树来表示句子的语法结构,并提出了两种策略来编码依赖树中单词之间的位置关系。NIST中文版⇒英语和WMT14英语⇒德语翻译任务,绝对和相对顺序位置表示上都能始终如一地提高性能。

句子的潜在结构可以通过结构深度和距离来捕捉(Hewitt和Manning,2019)

---》我们提出了绝对结构位置来编码解析树中每个单词的深度,以及相对结构位置来对树中每个词对的距离进行编码。

区别:

我们将依赖树中的结构信息传输到SANs,深入关联句子内部信息。

符号定义与公式

1.Self-Attention

输入:X=

查询

其中为可训练参数

输出

其中,为点积注意力模型

2.Sequential Position Encoding(顺序位置编码)
关于序列中元素的绝对或相对位置的信息注入SAN

绝对序列PE:ABSPE(abs)=f(abs/100002i/d),其中abs是序列中的绝对位置,i是位置表示的维数。f(·)是偶数维的sin(·),是奇数维的cos(·)。

相对顺序PE:RELPE(rel)=R[rel],其中rel是查询词的相对位置,用于索引表示相对位置嵌入的可学习矩阵R。

结构位置表述(采用树结构表示)

(左边是旧方法,右边是新方法,可以看到绝对位置和相对位置编码效果都不一样)

  • 绝对位置定义

我们将句子的主要动词(Tapanainen和Jarvinen,1997)视为起源,并使用从目标词到起源的依赖路径的距离作为绝对结构位置

Xi为目标单词,origin为主要动词

Tips:

在神经机器翻译(NMT)中,处理BPE子词和词尾符号时,分配BPE子词共享原始词的绝对结构位置,并将依赖树中第一个大于最大绝对结构位置的整数设置为内容末尾符号的绝对结构位。

一文搞懂BPE分词算法 

 

  • 相对位置定义

如果xi和xj处于同一依赖边

如果xi和xj处于不同的依赖边

3.将结构化PE集成到SAN中
绝对位置编码
使用非线性函数来融合序列和结构位置表示

其中,fabs是非线性函数。ABSPE(absseq)和ABSPE(absstru)分别是绝对序列和结构位置

相对位置编码

不改变

实验

数据集

NIST Chinese⇒English

WMT14 English⇒German

记录 4-gram BLEU score评分

实验步骤 
  1. 在TRANSFORMER上评估了所提出的位置编码策略
  2. 在THUMT之上实现了它们
  3. 当使用相对结构位置编码时,我们使用剪切距离r=16
  4. 我们研究了BASE模型在汉语中的变化⇒英语任务,并用BIG模型评估两项翻译任务的整体表现
实验结果分析

分别从以下方面开始概述:

  1. 位置编码的效果
  2. 结构位置编码的影响
  3. 序列和结构位置编码策略的组合
  4. 语言探究评价(Surface,Syntactic,Semantic指标)

个人总结

  1. 提出了一种新的结构位置编码策略,通过考虑输入句子的潜在结构来增强SAN
  2. 依赖树(两个单词之间的关系)中提取结构的绝对位置和相对位置

备注

以上仅为本人对此文章的看法,文章中的“我们”指代论文作者,详细可以自行查看原文章哦~。本人认知、科研水平有限,欢迎交流。

  • 51
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
在VGG模型中加入注意力机制的预训练有两个方面的影响。首先,注意力机制可以帮助在前面的几层卷积中更充分地提取底层特征,从而增强了模型对图像细节的关注。其次,通过在最后一层或几个最后一层添加注意力机制,可以让模型更加聚焦于感兴趣的区域,以提高图像分类的准确性。 根据引用中的阅读记录,VGG模型的预训练通常使用前几层的权重作为基础网络,这些权重包含了底层特征。通过在这些底层特征上加入注意力机制,可以让模型更加关注图像中的细节并提取更加丰富的特征。这样的做法可以提升图像分类的效果。 此外,引用中提到,预训练网络的特征提取方法可以在深度学习中应用于小数据问题,并具有较好的可移植性。这意味着通过在VGG模型中加入注意力机制进行预训练,可以在其他类似的图像分类任务中使用,而不仅仅局限于特定的数据集和问题。 综上所述,通过在VGG模型中加入注意力机制的预训练,可以提升模型对图像细节的关注和特征的丰富程度,进而提高图像分类的准确性,并具有较好的可移植性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [注意力机制论文研读](https://blog.csdn.net/m0_38116269/article/details/89214357)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [Keras实现——预训练卷积神经网络(VGG16)](https://blog.csdn.net/m0_72662900/article/details/126562165)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值