多模态Transformer输入的Tokenization过程

本文探讨了多模态Transformer的输入处理,包括将输入转化为token序列的tokenizing步骤和将token序列映射到向量空间的embedding过程。对于不同模态如图像和视频,有不同的tokenizing和embedding策略,如使用ROI、patchs或graph节点。Transformer模型通过早期融合方法结合多种嵌入,如逐token求和或加权求和,来处理多模态信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

经常有一些分析Transformer的自注意力机制的文章提到,自注意力机制是通过关注全局(而非局部)信息,将每个输入作为一个全连通图来处理。个人觉得,这在一定程度上说明,自注意力机制是GNN消息传递机制的隐式表达,它不直接建模显式的graph,同时兼顾了输入的简洁高效和连接的必要。
下面写一下多模态Transformer的Tokenization过程。是一篇综述摘录的部分,文献引用在最后。
给定一个任意模态的输入,需要做两件事:

  1. tokenizing:输入数据转化为token序列。
  2. embedding:token序列映射到某个向量空间,即token序列的表示。
    例如,对于图像输入,tokenizing和embedding的方法不是惟一的。选择token的粒度级别(粗粒度还是细粒度),例如:使用ROIs和CNN特征作为token和embedding;使用patchs和线性映射作为token和embedding;使用graph节点和GNN特征作为token和embedding。

若Tokenization过程给定,embedding方法有多种可选。例如对于视频输入,一种方法是将非重叠窗口(下采样)视为token,然后可以通过各种3D CNN提取对应的embedding,VideoBERT、CBT和UniVL使用S3D,ActBERT使用ResNet-3D。
文中给出一张表,里面有多种模态输入及对应的tokenizing和embedding方法。每种模态都可以解释为一种graph。

基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目),个人经导师指导并认可通过的高分设计项目,评审分98分,项目中的源码都是经过本地编译过可运行的,都经过严格调试,确保可以运行!主要针对计算机相关专业的正在做大作业、毕业设计的学生和需要项目实战练习的学习者,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基于JavaWeb的学生信息管理系统课程设计源码+数据库+文档报告(99分项目)基
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值