多模态Transformer输入的Tokenization过程

本文探讨了多模态Transformer的输入处理,包括将输入转化为token序列的tokenizing步骤和将token序列映射到向量空间的embedding过程。对于不同模态如图像和视频,有不同的tokenizing和embedding策略,如使用ROI、patchs或graph节点。Transformer模型通过早期融合方法结合多种嵌入,如逐token求和或加权求和,来处理多模态信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

经常有一些分析Transformer的自注意力机制的文章提到,自注意力机制是通过关注全局(而非局部)信息,将每个输入作为一个全连通图来处理。个人觉得,这在一定程度上说明,自注意力机制是GNN消息传递机制的隐式表达,它不直接建模显式的graph,同时兼顾了输入的简洁高效和连接的必要。
下面写一下多模态Transformer的Tokenization过程。是一篇综述摘录的部分,文献引用在最后。
给定一个任意模态的输入,需要做两件事:

  1. tokenizing:输入数据转化为token序列。
  2. embedding:token序列映射到某个向量空间,即token序列的表示。
    例如,对于图像输入,tokenizing和embedding的方法不是惟一的。选择token的粒度级别(粗粒度还是细粒度),例如:使用ROIs和CNN特征作为token和embedding;使用patchs和线性映射作为token和embedding;使用graph节点和GNN特征作为token和embedding。

若Tokenization过程给定,embedding方法有多种可选。例如对于视频输入,一种方法是将非重叠窗口(下采样)视为token,然后可以通过各种3D CNN提取对应的embedding,VideoBERT、CBT和UniVL使用S3D,ActBERT使用ResNet-3D。
文中给出一张表,里面有多种模态输入及对应的tokenizing和embedding方法。每种模态都可以解释为一种graph。

### Transformer 模型架构流程图 #### 数据预处理阶段 在输入端,原始文本 "Apple company designed a great smartphone." 需要经过分词(Tokenization),转换成一系列的标记(tokens)[^1]。 这些标记随后会被映射到高维空间中的向量表示(embeddings)。为了使模型能感知序列中元素间的相对距离,在此过程中还会加入位置编码(positional encoding)。具体来说,由于自注意力机制本身对于位置信息不敏感,因此采用了基于正弦和余弦函数来构建的位置编码方案[^2]。 ```mermaid graph LR; A[原文本:"Apple company..."] --> B{Tokenization}; B --> C["Tokens"]; C --> D{"Embedding + Positional Encoding"}; ``` #### 编码器部分 接下来进入编码器(encoder), 它由多个相同的层堆叠而成, 每一层主要包含两个子层: 1. 多头自注意(Multi-head Self-Attention): 让每个token可以关注整个句子范围内其他tokens的信息; 2. 前馈神经网络(Feed Forward Neural Network): 对每一个position上的representation做进一步变换; 每过一次这样的组合操作都会加深对输入的理解程度,并逐步形成更复杂的特征表达。 ```mermaid subgraph Encoder Layers (N layers) direction TB E[MHA] -.-> F[Add & Norm]; F --> G[FFNN]; G --> H[Add & Norm]; end D --> E; H --> I[Encoder Output]; ``` #### 解码器部分 解码过程同样依赖于多层结构,不过每一层内部除了重复利用上述提到的两种子组件外,还额外增加了一个跨模态注意力(cross-modal attention)机制: 该机制允许目标语言侧(即正在生成的目标句)通过查询源语言侧已有的上下文信息来进行更加精准地预测下一个单词是什么样的形式最合理。 最终输出的结果会是一个概率分布表,从中挑选出可能性最高的那个作为实际翻译结果的一部分。 ```mermaid subgraph Decoder Layers (N layers) J[Cross Modal Attention] -- Query from Target Language --> K[MHA on Target Tokens]; K --> L[Add & Norm]; L --> M[FFNN]; M --> N[Add & Norm]; O[Shifted Right Target Sequence] --> J; P[Decoder Input] --> O; N --> Q[Final Layer Normalization]; Q --> R[Linear Transformation]; R --> S[Softmax]; S --> T[Predicted Translation]; I --> P; T --> U[Translated Sentence:"La société Apple a conçu un excellent smartphone."] end ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值