【论文研读总结】基于结构位置的自注意力机制

最新推荐文章于 2024-08-21 16:56:45 发布

我明天再来学Web渗透

最新推荐文章于 2024-08-21 16:56:45 发布

阅读量1.8k

点赞数 51

分类专栏： paper 文章标签：人工智能深度学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73629042/article/details/136925615

版权

paper 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章介绍了一种结合自注意力网络(SANs)和结构编码的新方法，通过在依赖树中表示单词间的绝对和相对位置，提升了NIST中文到英语和WMT14英语到德语翻译任务的性能。

摘要由CSDN通过智能技术生成

目录

论文简介与作者

一句话简介

符号定义与公式

1.Self-Attention

2.Sequential Position Encoding（顺序位置编码）

关于序列中元素的绝对或相对位置的信息注入SAN

结构位置表述（采用树结构表示）

绝对位置定义

相对位置定义

3.将结构化PE集成到SAN中

绝对位置编码

使用非线性函数来融合序列和结构位置表示

相对位置编码

实验结果分析

论文简介与作者

一句话简介

SANs（Self Attention Networks, 自注意网络）+结构编码策略

作者

摘要概括

SANs(自注意网络)，我们使用依赖树来表示句子的语法结构，并提出了两种策略来编码依赖树中单词之间的位置关系。NIST中文版⇒英语和WMT14英语⇒德语翻译任务，绝对和相对顺序位置表示上都能始终如一地提高性能。

句子的潜在结构可以通过结构深度和距离来捕捉（Hewitt和Manning，2019）

---》我们提出了绝对结构位置来编码解析树中每个单词的深度，以及相对结构位置来对树中每个词对的距离进行编码。

区别：

我们将依赖树中的结构信息传输到SANs，深入关联句子内部信息。

符号定义与公式

1.Self-Attention

输入：X＝，

查询

其中为可训练参数

输出：

其中，为点积注意力模型

2.Sequential Position Encoding（顺序位置编码）

关于序列中元素的绝对或相对位置的信息注入SAN

绝对序列PE：ABSPE（abs）=f（abs/100002i/d），其中abs是序列中的绝对位置，i是位置表示的维数。f（·）是偶数维的sin（·），是奇数维的cos（·）。

相对顺序PE：RELPE（rel）=R[rel]，其中rel是查询词的相对位置，用于索引表示相对位置嵌入的可学习矩阵R。

结构位置表述（采用树结构表示）

（左边是旧方法，右边是新方法，可以看到绝对位置和相对位置编码效果都不一样）

绝对位置定义

我们将句子的主要动词（Tapanainen和Jarvinen，1997）视为起源，并使用从目标词到起源的依赖路径的距离作为绝对结构位置

Xi为目标单词，origin为主要动词

Tips:

在神经机器翻译（NMT）中，处理BPE子词和词尾符号时，分配BPE子词共享原始词的绝对结构位置，并将依赖树中第一个大于最大绝对结构位置的整数设置为内容末尾符号的绝对结构位。

一文搞懂BPE分词算法

相对位置定义

如果xi和xj处于同一依赖边

如果xi和xj处于不同的依赖边

3.将结构化PE集成到SAN中

绝对位置编码

使用非线性函数来融合序列和结构位置表示

其中，fabs是非线性函数。ABSPE（absseq）和ABSPE（absstru）分别是绝对序列和结构位置

相对位置编码

不改变

实验

数据集

NIST Chinese⇒English

WMT14 English⇒German

记录 4-gram BLEU score评分

实验步骤

在TRANSFORMER上评估了所提出的位置编码策略
在THUMT之上实现了它们
当使用相对结构位置编码时，我们使用剪切距离r=16
我们研究了BASE模型在汉语中的变化⇒英语任务，并用BIG模型评估两项翻译任务的整体表现

实验结果分析

分别从以下方面开始概述：

位置编码的效果
结构位置编码的影响
序列和结构位置编码策略的组合
语言探究评价（Surface，Syntactic，Semantic指标）

个人总结

提出了一种新的结构位置编码策略，通过考虑输入句子的潜在结构来增强SAN
从依赖树（两个单词之间的关系）中提取结构的绝对位置和相对位置

备注

以上仅为本人对此文章的看法，文章中的“我们”指代论文作者，详细可以自行查看原文章哦~。本人认知、科研水平有限，欢迎交流。

我明天再来学Web渗透

关注

51
点赞
踩
56

收藏

觉得还不错? 一键收藏
1
评论
【论文研读总结】基于结构位置的自注意力机制

一句话简介SANs（Self Attention Networks, 自注意网络）+结构编码策略输入：X＝查询其中为可训练参数输出其中，为点积注意力模型（顺序位置编码）关于序列中元素的绝对或相对位置的信息注入SAN绝对序列PE：，其中abs是序列中的绝对位置，i是位置表示的维数。f（·）是偶数维的sin（·），是奇数维的cos（·）。相对顺序PE：，其中rel是查询词的相对位置，用于索引表示相对位置嵌入的可学习矩阵R。结构位置表述（采用树结构表示）
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。