【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models

【还是写写CSDN自我激励一下吧 哈哈】
今天分享的是亚马逊推出的multimodal-COT,使用多模态数据触发CoT进行推理问答,在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%),甚至超过了许多人类。

论文:https://arxiv.org/pdf/2302.00923.pdf
源码:https://github.com/amazon-science/mm-cot

Problem

  1. 目前大规模语言模型在利用思维链进行复杂推理时都仅考虑了单模态(语言模态)
  2. 当参数量小于1千亿(100 billion)的时候,LMs容易胡说八道(hallucinated rationales)从而产生错误答案。

多模态CoT任务示例

在这里插入图片描述
输入:Question text (Q), context text ©, multiple options (M)
输出:answer (A) 或 以rationale为条件给出answer(RA)或 先给答案再给rationale(AR)

Motivation

  1. 经过系列实验,作者有以下观察:
    在这里插入图片描述
    观察1:没有R比有R好,推测可能是因为模型胡言乱语(hallucinated rationales),误导了答案。
    观察2:加入视觉模态特征可以大幅度修正模型胡言乱语的情况。
  2. 于是乎,作者就提出了两阶段的multimodal-CoT,先用文本和视觉两类特征得到较为准确的rationale(R),然后再由R和文本以及视觉特征得到最后的answer。

模型框架

在这里插入图片描述
分为rationale generation和answer inference两阶段,它们使用相同的模型但是输入和输出不同
(1)rationale generation
输入:X = {X1 language , Xvision}
输出:R = F(X)
(2)answer inference
输入:X0 = {X2 language , Xvision}
其中,X2 language = X1 language ◦ R(◦表示拼接)
输出:A = F(X0 )
分别为两个阶段有监督训练了两个模型

模型结构

可以分为encoding、interaction和decoding三步

总体目标

在这里插入图片描述
(1)Encoding
H_language = LanguageEncoder(X_language),
使用Transformer model 【T5的encoder】
H_vision = W_h · VisionExtractor(X_vision)
使用 DETR提取patch-level vision feature
(2) Interaction
使用单头注意力网络将文本token和图像patch相关联
Query=H_language, Key=H_vision, Value=H_vision
在这里插入图片描述
用门控机制融合
在这里插入图片描述
(3)Decoding
用的T5的Decoder

整个算法过程:

在这里插入图片描述

Experiment

a. 数据集:ScienceQA,首个标注详细解释的多模态科学问答数据集。
b. 实验结果:
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值