- 博客(18)
- 收藏
- 关注
原创 STDM-transformer: Space-time dual multi-scale transformer network forskeleton-based action recognit
提出了一种时空双重多尺度Transformer,旨在通过细粒度和粗粒度的运动信息来进行多尺度协作表示:分别在细粒度和粗粒度层次上提取和融合特征:细粒度层通过空间-时间多尺度划分策略和空间时间模块提取局部运动特征粗粒度层则通过层次化的多尺度渐进融合策略建模全局运动上下文。
2024-11-16 20:40:07 229
原创 Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Rec
交互式时空令牌注意力网络(ISTA-Net)的新方法,用于基于骨架的通用交互动作识别传统方法采用晚期融合和共注意力机制来捕捉互动关系,但在应对更多互动实体时,学习能力有限或效率较低;此外,这些方法假设每个实体的先验已知,因此在处理多样化主体时缺乏通用性。ISTA-Net引入了交互式时空令牌(IST),以统一方式表征多实体的运动。通过增加实体维度,IST可以更好地表达互动特征。研究背景交互动作:涉及多个实体之间相互依赖的物理动态的有目的行为。
2024-11-15 12:15:15 158
原创 Spatial-Temporal Specialized Transformer for Skeleton-based Action Recognition
现有的工作在处理骨架数据时,在时间和空间上采用的是相同的方式,并没有考虑到时间和空间维度的差异提出了时空特化erSTSTSpatial Transformer Block:对每一帧的数据进行单独的建模:捕捉骨架在时间维度上的整体运动模式引入了一种多任务自监督学习方法,通过生成不同情况下的干扰样本,增强模型的鲁棒性。
2024-11-14 10:23:52 309
原创 TinyBERT: Distilling BERT for Natural Language Understanding
传统的预训练语言模型,如BERT,虽然在自然语言处理任务中取得了显著进展,但由于其计算开销大,难以在资源有限的设备上高效执行为了解决这个问题,TinyBERT提出了一个新颖的蒸馏方法,专门针对基于的模型进行知识蒸馏。通过这种方法,大型BERT模型中蕴含的丰富知识可以有效地转移到较小的学生模型TinyBERT上。实验结果表明,TinyBERT44层模型)能够达到BERTBASE在GLUE基准测试中的96.8%的性能,同时在模型大小和推理速度上有显著优化:模型体积缩小了。
2024-11-06 16:54:27 856
原创 Transformer:Is Space-Time Attention All You Need for Video Understanding?
提出了一种基于自注意力机制的新型视频分类方法,称为“。与传统的卷积神经网络(CNN)不同,是完全基于自注意力操作的,不使用卷积操作。设计了“分离注意力”机制,在视频动作识别任务中表现优异,在和等基准上达到了最佳的性能。研究背景1. 自然语言处理领域中自注意力模型(如Transformer)的成功:能够高效捕捉词语间的长程依赖关系2. 传统的视频分析方法主要依赖2D和3D卷积神经网络(CNN。
2024-11-02 17:15:08 360
原创 低秩自适应(LORA): LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
提出了一种高效的参数微调方法,旨在解决对大规模预训练语言模型进行全参数微调时的高成本问题。LoRA通过在架构的每层中注入可训练的低秩分解矩阵,减少了下游任务训练时所需的可训练参数数量,同时保持预训练模型的权重冻结。这种方法在降低计算和内存需求的同时,能够在性能上与全参数微调相媲美甚至超越例子说明:相比使用Adam优化器进行微调的GPT-3 175B模型,LoRA能够将可训练参数数量减少10,000倍,同时将GPU内存需求降低3倍。研究背景。
2024-10-28 10:10:15 227
原创 Do Transformers Really Perform Bad for Graph Representation
虽然在自然语言处理和计算机视觉等领域取得了巨大的成功,但在图级别预测任务中的表现不如主流的GNN在图中利用Transformer的关键在于有效地将图的结构信息编码到模型中提出了Graphormer,它基于标准的架构,结合了几种简单但有效的图结构编码方法更好地处理图结构数据。
2024-10-18 20:41:15 374
原创 Can Transformer and GNN Help Each Other?
摘要Transformer难推广到图数据:i图数据复杂性高。(ii)未能捕获复杂且纠缠的结构信息。GNN可以融合图结构和节点属性,但感受野有限。基于上述问题,提出了一种名为TransGNN的新模型,其中层和GNN层交替使用以相互改进。研究背景:对于图数据,每个节点需要与所有其他节点进行全局的注意力计算,导致时间和空间复杂度为O(N²),当图规模较大时,会引发内存不足等问题主要基于节点之间的信息聚合,而不依赖图中的边,这导致它在捕捉复杂图拓扑结构时表现不佳GNN。
2024-10-18 08:56:43 405
原创 Graph Transformer Networks
大多数GNNs假设图结构是固定的、同构的,这限制了它们在包含多种类型节点和边的异质图上的效果。本文提出了GTNs),该网络能够通过识别未连接节点之间的重要连接生成新的图结构,从而无需领域特定的预处理,在新的图上学习更强大的节点表示。研究背景目前GNN的局限性同质图:如果图上有噪声,缺失连边或者有错误的连边,就会导致与图上错误的邻居进行无效的卷积异质图:直接当作是同质图处理,丢失信息使用人为设定的元路径将异质图转化成同质图,不能充分利用图中的信息。
2024-10-14 11:45:02 296
原创 基础论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT的设计目的是目的是捕捉输入文本的上下文双向信息,通过无监督预训练(如 Masked Language Model 任务)后,可以通过微调应用于各种下游任务,如文本分类、命名实体识别、问答等。
2024-10-09 22:08:05 655
原创 基础论文:Attention Is All You Need
提出一种完全基于注意力机制的架构,成为transformer,舍弃了之前集递归卷积架构。
2024-10-07 16:40:55 285
原创 GPT论文阅读:Language Models are Unsupervised Multitask Learners
abstractGPT-2是一个参数量为1.5B的transformer,在zero-shot设定下,在8个测试语言建模数据集中,有7个取得了最先进的结果最主要的贡献是在没有使用微调的情况下,在参数量更大的模型进行预训练,通过prompt和预测层在多个任务中达到SOTA。
2024-09-24 17:26:26 396
原创 GPT论文阅读:Improving Language Understanding by Generative Pre-Training
abstract在未标记文本语料库上对语言模型进行生成式预训练,然后对每个特定任务进行区分性微调。method训练过程包括两个阶段。第一阶段是在大型文本语料库上进行自监督训练。第二阶段在带标签数据进行微调。
2024-09-24 15:46:40 344
原创 一种用于细粒度动作检测的多流双向递归神经网络
论文阅读:A Multi-Stream Bi-Directional Recurrent Neural Network for Fine-Grained Action Detection
2023-02-28 01:12:30 340
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人