facebook的文章,一句话概括:图像patch和文本embedding concat在一起过transformer,做图像-文本匹配任务
相比之前的多模态transformer,创新点在用Vit的patch方案作为visual embedding而不是先过CNN提取特征,或者更繁琐的用CNN+RPN+ROI提取特征。
Insight:ViT初始化的transformer已经具备特征提取的功能。所以本文用的是Vi
时间:
结构:
流程:
embedding和positional encoding相加,两个模态concate,过MSA(自注意力层),过MLP,过pooling和激活
目前最简多模态transformer:ViLT
最新推荐文章于 2024-08-20 11:16:01 发布