【CS224n】(lecture9)Transformer的变体

最新推荐文章于 2025-06-04 14:15:05 发布

山顶夕景

最新推荐文章于 2025-06-04 14:15:05 发布

阅读量2.3k

点赞数 5

分类专栏：自然语言处理文章标签： transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35812205/article/details/122152418

版权

自然语言处理专栏收录该内容

89 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

学习总结

Transformer 的进一步改进可能在于以下几个方向：

0.1 理论分析

Transformer 的架构已被证明能够支持具有足够参数的大规模训练数据集。许多工作表明，Transformer 具有比 CNN 和 RNN 更大的容量，因此具有处理大量训练数据的能力。当 Transformer 在足够的数据上进行训练时，它通常比 CNN 或 RNN 具有更好的性能。一个直观的解释是 Transformer 对数据结构的先验假设很少，因此比 CNN 和 RNN 更灵活。然而，理论原因尚不清楚，我们需要对 Transformer 能力进行一些理论分析。

0.2 全局交互机制

Transformer 的一个主要优点是使用注意力机制来模拟输入数据中节点之间的全局依赖关系。然而，许多研究表明，对于大多数节点来说，完全注意是不必要的。在某种程度上，无法区分地计算所有节点的注意力是低效的。因此，在有效地建模全局交互方面仍有很大的改进空间。

一方面，self-attention 模块可以看成是一个具有动态连接权重的全连接神经网络，通过动态路由聚合非局部信息。因此，其他动态路由机制是值得探索的替代方法。
另一方面，全局交互也可以由其他类型的神经网络建模，例如记忆增强模型。

0.3 多模态统一框架

在许多应用场景中，集成多模态数据对于提高任务性能是有用且必要的。此外，通用人工智能还需要能够捕捉不同模态的语义关系。由于 Transformer 在文本、图像、视频和音频方面取得了巨大的成功，我们有机会构建一个统一的框架，更好地捕捉多模态数据之间的内在联系。然而，模内和跨模态注意力的设计仍有待改进。

文章目录

学习总结
五、transformer的变体（谷歌版）
六、transformer的变体（复旦版）

了解本专栏

超级会员免费看

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

山顶夕景 小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。