目录
2.Sequential Position Encoding(顺序位置编码)
论文简介与作者
一句话简介
SANs(Self Attention Networks, 自注意网络)+结构编码策略
作者
摘要概括
SANs(自注意网络),我们使用依赖树来表示句子的语法结构,并提出了两种策略来编码依赖树中单词之间的位置关系。NIST中文版⇒英语和WMT14英语⇒德语翻译任务,绝对和相对顺序位置表示上都能始终如一地提高性能。
句子的潜在结构可以通过结构深度和距离来捕捉(Hewitt和Manning,2019)
---》我们提出了绝对结构位置来编码解析树中每个单词的深度,以及相对结构位置来对树中每个词对的距离进行编码。
区别:
我们将依赖树中的结构信息传输到SANs,深入关联句子内部信息。
符号定义与公式
1.Self-Attention
输入:X=,
查询
其中为可训练参数
输出:
其中,为点积注意力模型
2.Sequential Position Encoding(顺序位置编码)
关于序列中元素的绝对或相对位置的信息注入SAN
绝对序列PE:ABSPE(abs)=f(abs/100002i/d),其中abs是序列中的绝对位置,i是位置表示的维数。f(·)是偶数维的sin(·),是奇数维的cos(·)。
相对顺序PE:RELPE(rel)=R[rel],其中rel是查询词的相对位置,用于索引表示相对位置嵌入的可学习矩阵R。
结构位置表述(采用树结构表示)
(左边是旧方法,右边是新方法,可以看到绝对位置和相对位置编码效果都不一样)
-
绝对位置定义
我们将句子的主要动词(Tapanainen和Jarvinen,1997)视为起源,并使用从目标词到起源的依赖路径的距离作为绝对结构位置
Xi为目标单词,origin为主要动词
Tips:
在神经机器翻译(NMT)中,处理BPE子词和词尾符号时,分配BPE子词共享原始词的绝对结构位置,并将依赖树中第一个大于最大绝对结构位置的整数设置为内容末尾符号的绝对结构位。
-
相对位置定义
如果xi和xj处于同一依赖边
如果xi和xj处于不同的依赖边
3.将结构化PE集成到SAN中
绝对位置编码
使用非线性函数来融合序列和结构位置表示
其中,fabs是非线性函数。ABSPE(absseq)和ABSPE(absstru)分别是绝对序列和结构位置
相对位置编码
不改变
实验
数据集
NIST Chinese⇒English
WMT14 English⇒German
记录 4-gram BLEU score评分
实验步骤
- 在TRANSFORMER上评估了所提出的位置编码策略
- 在THUMT之上实现了它们
- 当使用相对结构位置编码时,我们使用剪切距离r=16
- 我们研究了BASE模型在汉语中的变化⇒英语任务,并用BIG模型评估两项翻译任务的整体表现
实验结果分析
分别从以下方面开始概述:
- 位置编码的效果
- 结构位置编码的影响
- 序列和结构位置编码策略的组合
- 语言探究评价(Surface,Syntactic,Semantic指标)
个人总结
- 提出了一种新的结构位置编码策略,通过考虑输入句子的潜在结构来增强SAN
- 从依赖树(两个单词之间的关系)中提取结构的绝对位置和相对位置
备注
以上仅为本人对此文章的看法,文章中的“我们”指代论文作者,详细可以自行查看原文章哦~。本人认知、科研水平有限,欢迎交流。