Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记

论文(2023年)链接:https://arxiv.org/pdf/2302.00923.pdf

GitHub项目链接:GitHub - amazon-science/mm-cot: Official implementation for "Multimodal Chain-of-Thought Reasoning in Language Models" (stay tuned and more will be updated)

CoT(chain of thought)想必大家都略有耳闻,就是在问大语言模型问题的时候,加入一步一步的思考步骤,以便让大模型有更好的效果,之前大多是文本类型的描述。这篇2023年的文章直接提出了一种Multimodal-CoT:直接结合了文本和图片这两类数据类型来做CoT,实验效果那当然是显著提升。文章在开头给出了multimodal CoT的示例:

在介绍的时候作者提到,为了验证multimodal CoT的效果,目前有两类常用的方法来做multimodal CoT的实验,一种是将不同modality的数据转化成一种modality作为输入,比如把图片中的文字部分抽取出来,一起喂给大语言模型。另一种,是将不同modality的数据进行特征融合然后自己微调语言模型。这篇文章做了模型微调这个任务。实验数据是Science QA。接下来看下这篇文章的框架图:

首先,作者将文本和图片输入一起用于生成CoT的内容,这里说是rationale generation(原理生成),目测就是一边将图片生成讲解,一边结合原始的文本输入,一起得到我们的思维链内容(新的文本输入)。然后将我们的思维链内容结合原本的language input一起喂给大模型来得到最终的答案。因此本文将原理生成和答案生成分成了两步,作者写了一个算法流程:

再给一个具体例子的截图:

至于baseline,作者说他们:

To begin with, we fine-tune a text-only baseline for CoT reasoning on the ScienceQA benchmark...Our task is modeled as a text generation problem, where the model takes the textual information as the input and generates the output sequence that consists of the rationale and the answer.

看起来就是根据原始文本输出CoT。

实验过程中,作者发现图片标题其实并不起作用:

As using image captions does not yield significant performance gains in Section 3.3, we did not use the captions.

在抽取图片feature的时候,作者用了三个不同的模型进行了比较,分别是CLIP,DETR和ResNet,发现DETR效果最好哈。另外,还有一个有意思的发现是,作者抽样了一些回答正确的不正确的QA及其对应的CoT,在answer是正确的例子里,有10%的CoT其实是错的。。。咱们的模型有时候还是可以通过忽略不正确的逻辑推理还能预测正确的答案。

好的,读完了这篇文章,知道图片信息可能可以通过一些模型读出来,rationale信息可以自动生成,再用于CoT-based的结果判断。

哦,读了这篇文章还有一个非常有意思的项目是:https://github.com/salesforce/LAVIS/tree/f982acc73288408bceda2d35471a8fcf55aa04ca/projects/instructblip

这个项目大家可以看看,可以生成图片的说明哦!

from lavis.models import load_model_and_preprocess
# loads InstructBLIP model
model, vis_processors, _ = load_model_and_preprocess(name="blip2_vicuna_instruct", model_type="vicuna7b", is_eval=True, device=device)
# prepare the image
image = vis_processors["eval"](raw_image).unsqueeze(0).to(device)

model.generate({"image": image, "prompt": "Write a short description for the image."})

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
摘要: 阿尔茨海默病(Alzheimer's disease,AD)是一种神经退行性疾病,是老年人口中最常见的病症之一。当前,基于磁共振成像(MRI)的多模态分析已成为诊断AD的重要辅助手段。然而,MRI数据中存在着大量的噪声和不确定性,且不同模态间的信息存在着差异,这给AD的诊断和分类带来了很大的挑战。本文提出了一种基于分层卷积神经网络(H-CNN)的多模态MRI分类方法。我们首先使用三种不同的MRI模态(T1加权、FLAIR和DWI)获取脑部结构、病变和功能信息,然后采用H-CNN对这些信息进行联合建模、特征提取和分类。实验结果表明,所提出的方法在AD分类任务上取得了最优的性能。 关键词: 阿尔茨海默病;多模态MRI;卷积神经网络;分层结构;分类 1. 简介 随着人口老龄化程度的不断加深,阿尔茨海默病(Alzheimer's disease,AD)已经成为老年人口中最为常见的失智症之一。AD主要表现为记忆力衰退、认知功能障碍和情绪不稳定等症状,严重影响患者的生活质量。目前,临床上主要采用神经心理学测试和影像学检查等手段对AD进行诊断和分类。其中,磁共振成像(MRI)已经成为一种非常重要的辅助诊断手段,它可以提供脑部结构、病变和功能等多方面的信息。 然而,MRI数据中存在着大量的噪声和不确定性,且不同模态间的信息存在着差异,这给AD的诊断和分类带来了很大的挑战。为了克服这些困难,近年来研究人员提出了许多基于机器学习和深度学习的AD分类方法。其中,卷积神经网络(CNN)已经被广泛应用于MRI数据的处理和分析。CNN可以自动从数据中学习特征,并且对噪声和不确定性具有较强的鲁棒性。 然而,目前的大多数CNN模型都是针对单一模态的MRI数据进行设计的,这限制了它们的分类性能。为了更好地利用MRI数据中的多模态信息,我们提出了一种基于分层卷积神经网络(H-CNN)的多模态MRI分类方法。我们使用三种不同的MRI模态(T1加权、FLAIR和DWI)获取脑部结构、病变和功能信息,然后采用H-CNN对这些信息进行联合建模、特征提取和分类。实验结果表明,所提出的方法在AD分类任务上取得了最优的性能。 2. 相关工作 近年来,基于机器学习和深度学习的AD分类方法已经得到了广泛的研究。其中,CNN是一种非常常用的深度学习模型,已经被应用于MRI数据的处理和分析。例如,Sarraf和Tofighi[1]提出了一种基于3D-CNN的AD分类方法,该方法可以从三维MRI数据中提取特征并进行分类。Wang等人[2]提出了一种基于深度卷积神经网络(DCNN)的AD分类方法,该方法可以自动学习MRI数据中的特征并进行分类。Li等人[3]提出了一种基于深度信念网络(DBN)的AD分类方法,该方法可以对MRI数据进行降维和特征提取,并且可以处理多模态MRI数据。 尽管这些方法在AD分类任务中取得了一定的成功,但它们都是针对单一模态的MRI数据进行设计的,而忽略了MRI数据中的多模态信息。为了更好地利用MRI数据中的多模态信息,一些研究人员提出了基于多模态MRI数据的AD分类方法。例如,Li等人[4]提出了一种基于多模态脑图像的AD分类方法,该方法可以联合处理T1加权和FLAIR模态的MRI数据。Zhang等人[5]提出了一种基于多模态MRI数据的AD分类方法,该方法可以联合处理T1加权、T2加权和FLAIR模态的MRI数据。 然而,这些方法仍然存在一些问题。首先,它们通常采用简单的模型结构,无法充分利用MRI数据中的多模态信息。其次,它们的特征提取过程通常是手工设计的,无法自动学习MRI数据中的特征。最后,它们的分类性能仍然有待进一步提高。 3. 方法 为了更好地利用MRI数据中的多模态信息,我们提出了一种基于分层卷积神经网络(H-CNN)的多模态MRI分类方法。我们使用三种不同的MRI模态(T1加权、FLAIR和DWI)获取脑部结构、病变和功能信息,然后采用H-CNN对这些信息进行联合建模、特征提取和分类。 具体来说,我们首先将三种不同的MRI模态分别输入到三个单独的卷积神经网络中,以进行局部特征提取。然后,我们采用一个分层卷积神经网络(H-CNN)将这些局部特征进行联合建模。H-CNN由多个卷积层和池化层组成,每个卷积层和池化层都包含多个子层。在每个子层中,我们使用不同的卷积核和池化核来提取不同尺度的特征。最后,我们将H-CNN的输出传递给全连接层,并使用softmax函数对其进行分类。 4. 实验结果 为了评估所提出的方法的性能,我们使用了一个包含200名AD患者和200名正常对照组的数据集。我们将数据集分为训练集、验证集和测试集,其中训练集和验证集用于模型训练和调优,测试集用于评估模型的性能。我们使用了准确率、召回率、F1值和AUC等指标来评估模型的性能。 实验结果表明,所提出的方法在AD分类任务上取得了最优的性能。具体来说,我们的方法在测试集上的准确率、召回率、F1值和AUC分别为93.2%、91.8%、92.5%和0.974,远高于其他方法。这表明,我们的方法可以有效地利用MRI数据中的多模态信息,并且具有较强的分类性能。 5. 结论 本文提出了一种基于分层卷积神经网络(H-CNN)的多模态MRI分类方法,该方法可以有效地利用MRI数据中的多模态信息,并且具有较强的分类性能。实验结果表明,所提出的方法在AD分类任务上取得了最优的性能。未来,我们将进一步改进该方法,并将其应用于其他相关疾病的诊断和分类。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值