经常有一些分析Transformer的自注意力机制的文章提到,自注意力机制是通过关注全局(而非局部)信息,将每个输入作为一个全连通图来处理。个人觉得,这在一定程度上说明,自注意力机制是GNN消息传递机制的隐式表达,它不直接建模显式的graph,同时兼顾了输入的简洁高效和连接的必要。
下面写一下多模态Transformer的Tokenization过程。是一篇综述摘录的部分,文献引用在最后。
给定一个任意模态的输入,需要做两件事:
- tokenizing:输入数据转化为token序列。
- embedding:token序列映射到某个向量空间,即token序列的表示。
例如,对于图像输入,tokenizing和embedding的方法不是惟一的。选择token的粒度级别(粗粒度还是细粒度),例如:使用ROIs和CNN特征作为token和embedding;使用patchs和线性映射作为token和embedding;使用graph节点和GNN特征作为token和embedding。
若Tokenization过程给定,embedding方法有多种可选。例如对于视频输入,一种方法是将非重叠窗口(下采样)视为token,然后可以通过各种3D CNN提取对应的embedding,VideoBERT、CBT和UniVL使用S3D,ActBERT使用ResNet-3D。
文中给出一张表,里面有多种模态输入及对应的tokenizing和embedding方法。每种模态都可以解释为一种graph。