transformer架构_原来Transformer就是一种图神经网络，这个概念你清楚吗？

最新推荐文章于 2025-02-14 14:44:36 发布

weixin_39531635

最新推荐文章于 2025-02-14 14:44:36 发布

阅读量1k

点赞数

文章标签： transformer架构有向加权图最大弱连通分支神经网络有趣案例

Transformer模型通过注意力机制改变了NLP领域，其本质可视为一种图神经网络。本文探讨了Transformer与GNN的内在联系，指出Transformer的多头注意力机制类似于GNN的邻域聚合，将句子视为全连接图进行信息传递。同时，文章提出了全连接图对长期依赖学习的挑战，以及未来可能从GNN中借鉴的技术来优化Transformer。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer和GNN有什么关系？一开始可能并不明显。但是通过这篇文章，你会从GNN的角度看待Transformer的架构，对于原理有更清楚的认知。

选自NTU Graph Deep Learning Lab，作者：Chaitanya Joshi，机器之心编译，参与：一鸣、杜伟、Jamin。

有的工程师会问这个问题：图深度学习听起来不错，但是有没有商业上的成功案例？它是否已经在实际应用中使用过了？

除了一些以下企业中的推荐系统，如 Pinterest、阿里巴巴和推特，实际上在商业中已经取得成功的案例是 Transformer，它极大地改变了 NLP 业界。

通过这篇博文，现为南洋理工大学助理研究员的 Chaitanya Joshi 将为读者介绍图神经网络和 Transformer 之间的内在联系。具体而言，作者首先介绍 NLP 和 GNN 中模型架构的基本原理，使用公式和图片来加以联系，然后讨论怎样能够推动这方面的进步。

本文作者、南洋理工大学助理研究员 Chaitanya Joshi。

对「Transformer 是图神经网络」这一概念，这篇文章做了很好的解释。

首先，我们从表示学习开始。

NLP 中的表示学习

从一个很高的角度来看，所有的神经网路架构都是对输入数据的表示——以向量或嵌入矩阵的形式。这种方法将有用的统计或语义信息进行编码。这些隐表示可以被用来进行一些有用的任务，如图像分类或句子翻译。神经网络通过反馈（即损失函数）来构建更好的表示。

对于 NLP 来说，传统上，RNN 对每个词都会建立一个表示——使用序列的方式。例如，每个时间步一个词。从直观上来说，我们可以想象，一个 RNN 层是一个传送带。词汇以自回归的方式从左到右被处理。在结束的时候，我们可以得到每个词在句子中的隐藏特征，然后将这些特征输入到下一个 RNN 层中，或者用到任务中去。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。