transformer架构_原来Transformer就是一种图神经网络,这个概念你清楚吗?

Transformer模型通过注意力机制改变了NLP领域,其本质可视为一种图神经网络。本文探讨了Transformer与GNN的内在联系,指出Transformer的多头注意力机制类似于GNN的邻域聚合,将句子视为全连接图进行信息传递。同时,文章提出了全连接图对长期依赖学习的挑战,以及未来可能从GNN中借鉴的技术来优化Transformer。
摘要由CSDN通过智能技术生成

ca0db1a965f065b980f169d885a1a71f.png
Transformer和GNN有什么关系?一开始可能并不明显。但是通过这篇文章,你会从GNN的角度看待Transformer的架构,对于原理有更清楚的认知。

选自NTU Graph Deep Learning Lab,作者:Chaitanya Joshi,机器之心编译,参与:一鸣、杜伟、Jamin。

有的工程师会问这个问题:图深度学习听起来不错,但是有没有商业上的成功案例?它是否已经在实际应用中使用过了?

除了一些以下企业中的推荐系统,如 Pinterest、阿里巴巴和推特,实际上在商业中已经取得成功的案例是 Transformer,它极大地改变了 NLP 业界。

通过这篇博文,现为南洋理工大学助理研究员的 Chaitanya Joshi 将为读者介绍图神经网络和 Transformer 之间的内在联系。具体而言,作者首先介绍 NLP 和 GNN 中模型架构的基本原理,使用公式和图片来加以联系,然后讨论怎样能够推动这方面的进步。

ca43dd37a879663995c2d441fa62cd6d.png
本文作者、南洋理工大学助理研究员 Chaitanya Joshi。

对「Transformer 是图神经网络」这一概念,这篇文章做了很好的解释。

b27d70882ee24066f1df4d9c1e9ed57d.png

首先,我们从表示学习开始。

NLP 中的表示学习

从一个很高的角度来看,所有的神经网路架构都是对输入数据的表示——以向量或嵌入矩阵的形式。这种方法将有用的统计或语义信息进行编码。这些隐表示可以被用来进行一些有用的任务,如图像分类或句子翻译。神经网络通过反馈(即损失函数)来构建更好的表示。

对于 NLP 来说,传统上,RNN 对每个词都会建立一个表示——使用序列的方式。例如,每个时间步一个词。从直观上来说,我们可以想象,一个 RNN 层是一个传送带。词汇以自回归的方式从左到右被处理。在结束的时候,我们可以得到每个词在句子中的隐藏特征,然后将这些特征输入到下一个 RNN 层中,或者用到任务中去。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值