Star-Transformer

最新推荐文章于 2025-10-24 16:49:45 发布

转载最新推荐文章于 2025-10-24 16:49:45 发布 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

原文链接：https://blog.csdn.net/qq_40210472/article/details/89816528

NLP/DeepLearning 专栏收录该内容

319 篇文章

订阅专栏

Star-Transformer是复旦大学提出的一种精简版Transformer，采用星型拓扑结构替代全连接，降低复杂度至线性，同时保留捕获局部与长期依赖的能力。通过共享中继节点连接卫星节点，实现序列建模的高效与并行计算，适用于长序列数据。

【精简Transformer】Star-Transformer

本文是复旦大学发表于NAACL 2019的工作。文章的主要贡献在于精简transformer，增强了在modestly size datasets上的表现。精简思路非常清晰且具有可解释性质，消解实验和对比实验也很有针对性。

摘要

虽然transformer在很多NLP任务上都取得了很大的成功，但是它的结构很重，注意力连接是完全连接的，这导致了它对大量训练数据的依赖。为了降低模型的复杂性，我们用星型拓扑结构代替了全连通结构。其中每两个相邻节点通过一个共享中继节点进行连接。因此，复杂性从二次降低到线性，同时保留捕获局部成分和长期依赖关系的能力。

介绍

star-transformer核心思想是通过将完全连接的拓扑结构移动到星型结构中来简化体系结构
在全连通网络中，基连接保持了非本地通信，消除了冗余。环形连接体现了局域性优先，与CNNs/RNNs具有相同的作用。该方法的一个内在优点是，该方法不能有效地降低局部和非局部成分的无偏差学习负担，提高了模型的泛化能力。有待测试的是，一个共享中继节点是否能够捕获长期依赖关系。我们设计了一个模拟任务“掩蔽求和”来探测处理长期依赖关系的能力。通过引入虚拟中继节点，实现了星形变压器的图形结构。根治性连接和环状连接在局部性和非局部性之间提供了更好的平衡。星型转换的实现完全基于与标准transformer相似的注意力机制，它更简单，更适合并行计算。由于其较好的并行能力和较低的复杂度，星变换器比RNNs或变压器速度快，特别是在长序列建模方面

模型model

星变压器由一个中继节点和n个卫星节点组成。第i个卫星节点的状态表示文本序列中第i个token的特征。中继节点充当虚拟的集线器，在所有卫星节点之间收集和散布信息.星形变压器是一种星形结构，其内部有径向连接和环形连接两种连接方式.

(1) Radical connections 对于一个有n个卫星节点的网络，有n个基本连接。每个连接都将一个卫星节点链接到共享中继节点。在基连接中，每两个不相邻的卫星节点都是两跳邻居，可以通过两步更新接收非本地信息。
Ring connections 由于文本输入是一个序列，所以我们将这种先验称为归纳偏差.因此，我们连接相邻的卫星节点去捕捉局部成分之间的关系。第一个节点和最后一个节点也连接起来。请注意，环形连接允许每个卫星节点从其邻居处收集信息，并对CNNs或双向rns起相同的作用。
(2) star-transformer 可以同时捕捉局部和非局部的成分，radical 连接捕捉非局部成分，ring 连接捕捉局部成分。

多头注意力

给定一个向量H∈Rn×d的序列，我们可以使用查询向量q∈R1×d，使用注意力软选择相关信息。

为了从h中收集更多有用的信息，就像CNNs中的多通道一样，我们可以使用k个头部的多头注意力。### 更新
令st∈R1×d, Ht∈Rn×d表示第t步中继节点和所有n个卫星节点的状态。：当使用StarTransformer编码长度为n的文本序列时，我们从其嵌入E = [e1;···;en]开始，其中ei∈R1×d为第i个令牌的嵌入。我们用H0 = E和s0 = average(E)初始化状态。star - transformeratstep的更新可分为两个阶段:(1)卫星节点的更新(2)中继节点的更新。在第一阶段，卫星节点的状态码hi会从相邻的节点更新，包括相邻节点的hi - 1、hi+1，中继节点st、它的前一状态及其对应的token嵌入。

其中Ct i表示第i个卫星节点的上下文信息。：信息交换后，使用层归一化操作 - 在第二阶段，中继节点st总结了所有卫星节点的信息及其之前的状态

(1) 通过交替更新卫星和中继节点，星形变压器最终捕获输入文本序列的所有局部和非局部成分

位置编码

为了合并序列信息，我们还添加了可学习的位置嵌入，它与token嵌入连接在一起，并在所有时间步骤中共享。### 输出经过T轮更新，HT和sT的最终状态可以用于序列标记和分类等各种任务。对于分类，我们通过在最后一层应用一个最大池并将其与sT混合，生成固定长度的句子级向量表示，该向量被送入一个多层感知器(MLP)分类器。对于序列标记任务，HT提供了与所有输入标记对应的特性。

转载自：https://blog.csdn.net/qq_40210472/article/details/89816528