transformer系列
文章平均质量分 75
真的没有脑袋
这个作者很懒,什么都没留下…
展开
-
Transformer:Is Space-Time Attention All You Need for Video Understanding?
提出了一种基于自注意力机制的新型视频分类方法,称为“。与传统的卷积神经网络(CNN)不同,是完全基于自注意力操作的,不使用卷积操作。设计了“分离注意力”机制,在视频动作识别任务中表现优异,在和等基准上达到了最佳的性能。研究背景1. 自然语言处理领域中自注意力模型(如Transformer)的成功:能够高效捕捉词语间的长程依赖关系2. 传统的视频分析方法主要依赖2D和3D卷积神经网络(CNN。原创 2024-11-02 17:15:08 · 360 阅读 · 0 评论 -
Do Transformers Really Perform Bad for Graph Representation
虽然在自然语言处理和计算机视觉等领域取得了巨大的成功,但在图级别预测任务中的表现不如主流的GNN在图中利用Transformer的关键在于有效地将图的结构信息编码到模型中提出了Graphormer,它基于标准的架构,结合了几种简单但有效的图结构编码方法更好地处理图结构数据。原创 2024-10-18 20:41:15 · 374 阅读 · 0 评论 -
Graph Transformer Networks
大多数GNNs假设图结构是固定的、同构的,这限制了它们在包含多种类型节点和边的异质图上的效果。本文提出了GTNs),该网络能够通过识别未连接节点之间的重要连接生成新的图结构,从而无需领域特定的预处理,在新的图上学习更强大的节点表示。研究背景目前GNN的局限性同质图:如果图上有噪声,缺失连边或者有错误的连边,就会导致与图上错误的邻居进行无效的卷积异质图:直接当作是同质图处理,丢失信息使用人为设定的元路径将异质图转化成同质图,不能充分利用图中的信息。原创 2024-10-14 11:45:02 · 283 阅读 · 0 评论 -
基础论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT的设计目的是目的是捕捉输入文本的上下文双向信息,通过无监督预训练(如 Masked Language Model 任务)后,可以通过微调应用于各种下游任务,如文本分类、命名实体识别、问答等。原创 2024-10-09 22:08:05 · 653 阅读 · 0 评论 -
基础论文:Attention Is All You Need
提出一种完全基于注意力机制的架构,成为transformer,舍弃了之前集递归卷积架构。原创 2024-10-07 16:40:55 · 284 阅读 · 0 评论