【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models

谷米今天认路了吗

已于 2023-03-05 15:05:25 修改

阅读量1.3k

点赞数 1

文章标签：论文阅读语言模型人工智能

于 2023-03-05 15:00:56 首次发布

本文链接：https://blog.csdn.net/weixin_38506372/article/details/129345761

版权

【还是写写CSDN自我激励一下吧哈哈】
今天分享的是亚马逊推出的multimodal-COT，使用多模态数据触发CoT进行推理问答，在参数量小于 10 亿的情况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

论文：https://arxiv.org/pdf/2302.00923.pdf
源码：https://github.com/amazon-science/mm-cot

Problem

目前大规模语言模型在利用思维链进行复杂推理时都仅考虑了单模态（语言模态）
当参数量小于1千亿（100 billion）的时候，LMs容易胡说八道（hallucinated rationales）从而产生错误答案。

多模态CoT任务示例

在这里插入图片描述
输入：Question text (Q), context text ©, multiple options (M)
输出：answer (A) 或以rationale为条件给出answer（RA）或先给答案再给rationale（AR）

Motivation

经过系列实验，作者有以下观察：

观察1：没有R比有R好，推测可能是因为模型胡言乱语（hallucinated rationales），误导了答案。
观察2：加入视觉模态特征可以大幅度修正模型胡言乱语的情况。
于是乎，作者就提出了两阶段的multimodal-CoT，先用文本和视觉两类特征得到较为准确的rationale（R），然后再由R和文本以及视觉特征得到最后的answer。

模型框架

在这里插入图片描述
分为rationale generation和answer inference两阶段，它们使用相同的模型但是输入和输出不同
（1）rationale generation
输入：X = {X1 language , Xvision}
输出：R = F(X)
（2）answer inference
输入：X0 = {X2 language , Xvision}
其中，X2 language = X1 language ◦ R（◦表示拼接）
输出：A = F(X0 )
分别为两个阶段有监督训练了两个模型

模型结构

可以分为encoding、interaction和decoding三步

总体目标

在这里插入图片描述
（1）Encoding
H_language = LanguageEncoder(X_language),
使用Transformer model 【T5的encoder】
H_vision = W_h · VisionExtractor(X_vision)
使用 DETR提取patch-level vision feature
（2） Interaction
使用单头注意力网络将文本token和图像patch相关联
Query=H_language, Key=H_vision, Value=H_vision
在这里插入图片描述
用门控机制融合

（3）Decoding
用的T5的Decoder