【ACL2023】MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning-CSDN博客

本文链接：https://blog.csdn.net/qq_45978862/article/details/132008907

论文 22：MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning
机构：弗吉尼亚理工大学
论文作者：Zhiyang Xu, Ying Shen 以及 Lifu Huang
论文地址：https://arxiv.org/pdf/2212.10773.pdf

简要介绍

关键词：instruction tuning、zero-shot learning、Multi-Modal
研究动机：
zeor-shot 在NLP上应用了，然而，它尚未被探索的视觉和多模态任务。由于之前BeiTv3做的大一统，将图片也当做一个imaglish语言处理，所以可以想到用instruction tuning来提升多模态的性能。
【那这样的话，多模态就变成了处理NLP的任务，所以很多NLP再做的也可以迁移到这里。】
主要贡献：
（1）提出Multi-Instruction ：第一个多模态指令调优基准数据集，它包含62个不同的多模态任务，采用统一的seq-to-seq格式，涵盖10个大类别。包括：Visual Question Answering（VAQ）、Commonsense Reasoning、Visual Relationship Understanding（VRU）等。
（2）探索了多种迁移学习策略来利用大规模的自然指令数据集（https://aclanthology.org/2022.acl-long.244/）
（3）我们还设计了一个新的评估度量-敏感度，以评估模型对各种指令的敏感性。我们的结果表明，在多种的任务和指令集上微调模型会降低对每个任务的指令变化的敏感性。

详细内容

(1) MULTIINSTRUCT

多模态多任务和数据搜集：

整合现有的开源数据的多个任务。设计涵盖广泛的多模态任务，在区域、图像和文本之间推理的。
增强任务存储。对每任务，进一步检查了基于原始任务的输入和输出派生新任务的可能性。比如：Visual Grounding（文本描述选定image区域）派生Grounded Caption Selection（根据图像区域选文本）,和Visual Grounding Selection,（根据文本选图像区域）。通过这种方式，我们从34个现有任务中进一步导出28个新任务。共62个任务。
训练和评估：
○ 采用与OFA的训练前任务相似的任务来进行训练；
○ 选择与训练任务不重叠的具有挑战性的多模态任务进行评估。

Instruction

一条指令是用一个模板定义的，该模板描述了任务应该如何执行，并包含任意数量的占位符，包括 , and 。
举例：Grounded Captioning任务中，“Generate a caption for ”。

仅在分类任务中使用。为了生成能够准确传达预期任务的高质量指令，我们采用了一个迭代注释过程，其中包括两个对任务和数据集有全面理解的专家注释。

多模态指令格式化：

参照OFA：将不同类型的输入转换为统一的词汇表。后续处理成seq-to-seq任务。

文本：我们应用字节对编码（BPE）来对文本输入进行编码。
图像：对于目标图像，我们应用VQ-GAN通过图像量化生成离散的图像。为了表示图像的区域或边界框，我们将四个角坐标离散为位置标记，如“<bin_242><bin_180><bin_736><bin_475>”

输入包括：（1）image 【没有的话就是black image】（2）Instruction

（2）迁移策略：

因为看到NATURAL INSTRUCTIONS dataset比本文的MultiInstruction要多很多。

Mixed Instruction Tuning ：我们将自然指令和多指令的实例结合起来，并在微调OFA和指令之前随机打乱它们。
Sequential Instruction Tuning. 两阶段。（1）NATURAL INSTRUCTIONS上微调OFA，鼓励模型遵循指令执行语言任务，（2）多指令上进行微调，使指令学习能力适应多模态任务。

（3）新指标——sensitivity

指的是模型一致产生相同结果的能力，无论指令的措辞有轻微的变化，只要预期的任务保持不变。
在这里插入图片描述

在这里插入图片描述

结论

在这里插入图片描述
1、 MultiInstruction的有效性：
（1）其效果很好，很多任务指标都最高。
（2）跟OFA（taskName）相比都更优秀，说明其性能增益主要来自于指令训练，而不是多任务训练。
2、迁移学习的影响：
（1）只在NaturalInstruction上训练的OFA（NaturalInstruction），普遍比OFA还要低。可能是因为它使得模型更关注text tokens而忽视了image tokens。
（2）迁移学习的两个方面每明显由于OFA （MultiInstruction）,但有些任务还有分数高于OFA 的（特别是在std上面）。

在这里插入图片描述
3、增加多模态Instruction任务集群的影响：增加任务集群的数量可以提高模型在不可见任务上的性能，并导致更一致的输出。【也就是任务越多越好】

在这里插入图片描述
4、多样的指令对Instruction tuning的影响：对每个任务使用不同的指令集，可以提高模型在不可见任务上的零射击性能，并降低其对指令变化的敏感性。未来的工作可以探索众包或自动生成策略，以创建更多样化的指令调整指令。【越多样越有效】

在这里插入图片描述
**5、fine-tune的影响：**通过将大规模Natural Instruction数据集transfer到多指令（后两者），灵敏度也大大降低，突出了在更大的指令数据集上微调模型的好处，而不考虑不同的格式和模式。

单模态NLP的zero-shot能力：

在这里插入图片描述

（1）MultiInstruction确实可以提高
（2）综合上面的几个实验，可以认为 OFA（MixedInstruction）能够在所有multi-modal和NLP任务上实现总体最好的Aggregation性能，并且对指令措辞的变化显示出较低的sensitivity，使其成为最有前途的方法。