多模态Transformer输入的Tokenization过程

ryb4i

已于 2023-06-14 15:30:44 修改

阅读量965

点赞数

文章标签： transformer 深度学习人工智能

于 2023-06-14 15:16:43 首次发布

本文链接：https://blog.csdn.net/qq_45398738/article/details/131203824

版权

本文探讨了多模态Transformer的输入处理，包括将输入转化为token序列的tokenizing步骤和将token序列映射到向量空间的embedding过程。对于不同模态如图像和视频，有不同的tokenizing和embedding策略，如使用ROI、patchs或graph节点。Transformer模型通过早期融合方法结合多种嵌入，如逐token求和或加权求和，来处理多模态信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

经常有一些分析Transformer的自注意力机制的文章提到，自注意力机制是通过关注全局（而非局部）信息，将每个输入作为一个全连通图来处理。个人觉得，这在一定程度上说明，自注意力机制是GNN消息传递机制的隐式表达，它不直接建模显式的graph，同时兼顾了输入的简洁高效和连接的必要。
下面写一下多模态Transformer的Tokenization过程。是一篇综述摘录的部分，文献引用在最后。
给定一个任意模态的输入，需要做两件事：

tokenizing：输入数据转化为token序列。
embedding：token序列映射到某个向量空间，即token序列的表示。
例如，对于图像输入，tokenizing和embedding的方法不是惟一的。选择token的粒度级别（粗粒度还是细粒度），例如：使用ROIs和CNN特征作为token和embedding；使用patchs和线性映射作为token和embedding；使用graph节点和GNN特征作为token和embedding。

若Tokenization过程给定，embedding方法有多种可选。例如对于视频输入，一种方法是将非重叠窗口（下采样）视为token，然后可以通过各种3D CNN提取对应的embedding，VideoBERT、CBT和UniVL使用S3D，ActBERT使用ResNet-3D。
文中给出一张表，里面有多种模态输入及对应的tokenizing和embedding方法。每种模态都可以解释为一种graph。

最低0.47元/天解锁文章