【CS224n】(lecture9)Transformer的变体

学习总结

Transformer 的进一步改进可能在于以下几个方向:

0.1 理论分析

Transformer 的架构已被证明能够支持具有足够参数的大规模训练数据集。许多工作表明,Transformer 具有比 CNN 和 RNN 更大的容量,因此具有处理大量训练数据的能力。当 Transformer 在足够的数据上进行训练时,它通常比 CNN 或 RNN 具有更好的性能。一个直观的解释是 Transformer 对数据结构的先验假设很少,因此比 CNN 和 RNN 更灵活。然而,理论原因尚不清楚,我们需要对 Transformer 能力进行一些 理论分析。

0.2 全局交互机制

Transformer 的一个主要优点是使用注意力机制来模拟输入数据中节点之间的全局依赖关系。然而,许多研究表明,对于大多数节点来说,完全注意是不必要的。在某种程度上,无法区分地计算所有节点的注 意力是低效的。因此,在有效地建模全局交互方面仍有很大的改进空间。

  • 一方面,self-attention 模块可以看成是一个具有动态连接权重的全连接神经网络,通过动态路由聚合非局部信息。因此,其他动态路由机 制是值得探索的替代方法。
  • 另一方面,全局交互也可以由其他类型的神经网络建模,例如记忆增强模型。

0.3 多模态统一框架

在许多应用场景中,集成多模态数据对于提高任务性能是有用且必要的。此外,通用人工智能还需要 能够捕捉不同模态的语义关系。由于 Transformer 在文本、图像、视频和音频方面取得了巨大的成功,我们有机会构建一个统一的框架,更好地捕捉多模态数据之间的内在联系。然而,模内和跨模态注意力的设 计仍有待改进。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山顶夕景

小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值