计算机视觉
文章平均质量分 63
北上ing
这个作者很懒,什么都没留下…
展开
-
多模态中的交叉注意力Cross Attentionon
CA作为多模态融合的一个重要组成部分,它通过注意力机制在不同模块之间建立联系,促进信息的交流和整合,从而提升了模型处理复杂任务的能力。原创 2024-05-01 11:00:34 · 309 阅读 · 2 评论 -
CV中token、Patch Embedding、positional encoding的概念(多模态、ViT、Transformer)
在不同的语境下,术语token等有不同的解释。笔者这里的概念解释基于Google的ViT原文。NLP中,token指的是一个单词word。而CV中,token的概念包含:token、class token、patch token等。原创 2024-04-26 09:20:17 · 452 阅读 · 1 评论