多模态——PALO包含 10 种语言的多模态模型算法解析

知来者逆

已于 2024-04-24 15:32:08 修改

阅读量1.2k

点赞数 23

分类专栏：智能算法文章标签：自然语言处理多模态 gpt 人工智能

于 2024-04-21 09:35:01 首次发布

本文链接：https://blog.csdn.net/matt45m/article/details/137998926

版权

智能算法专栏收录该内容

78 篇文章 19 订阅

订阅专栏

概述

随着生成式人工智能的快速发展，出现了能将视觉和语言任务无缝连接的大规模多模态模型，从而在这一领域取得了革命性的进展。然而，虽然 LLaVA 和 miniGPT4 等开创性工作在从视觉输入有效生成文本响应方面取得了显著成果，但它们的关注点主要局限于英语，在非英语使用者的多模态理解方面做得还不够。因此，目前的大规模多模态模型往往忽视了汉语、印地语、西班牙语和法语等语言群体的语言多样性，而这些语言群体占世界人口的大多数。

针对这种不平衡现象，本文重点关注多模态模型中尚未充分体现的语言，并开发了首个开源多语言大规模多模态模型 PALO，该模型涵盖 10 种主要语言，覆盖全球 65% 的人口。

该倡议旨在解决除英语以外的其他语言缺乏高质量多语言多模态数据的问题。尤其是印地语、阿拉伯语、孟加拉语和乌尔都语的数据有限。本文通过仔细分析和完善最先进的大规模语言模型为每种目标语言生成的译文，来应对这些挑战。通过人工干预检查和纠正翻译的准确性，创建了一个高质量的多语言数据集，确保了不同语言间的准确性和微妙性。

此外，利用高质量的多语言视觉语言教学数据集和大规模多模态建模技术的最新进展，开发出了一个统一的模型 PALO，可同时回答 10 种不同语言的问题。该模型可以保持甚至提高高资源语言的性能，同时显著提高低资源语言的性能。

示例网站：https://palo.mbzuai-oryx.ngrok.app/
论文：https://arxiv.org/abs/2402.14818
代码：https://github.com/mbzuai-oryx/PALO

PALO

本节将介绍多语种大型多模态模型（PALO），该模型设计用于十种主要语言的全球访问，覆盖全球约三分之二的人口。该模型旨在展示其在不同计算环境中的通用性，大型模型（7/13B）基于 LLaVA，轻型模型（1.7B）基于 MobileVLM。

PALO 无缝集成了视觉编码器和语言模型，可根据输入图像和用户文本查询生成准确的自然语言回复。该模型使用先进的视觉编码器 CLIP ViT-L/14，通过投影仪处理视觉标记，将其转换为语言模型易于理解的形式。特别值得一提的是专为移动模型设计的轻量级下采样投影仪（LDP），它大大缩短了训练和推理时间，实现了模型的高效运行。

PALO 采用 10 种语言进行训练，并利用丰富的多模式教学调整数据集。这使得模型能够在更丰富的语境中通过更具挑战性的示例进行学习，从而显著提高其理解和生成不同语言集反应的能力。

大规模模型使用名为 Vicuna 的大规模语言模型，而移动模型则使用 MobileLLaMA，这两种模型都已在从不同来源收集的大量文本数据（包括 ShareGPT，一个最先进的数据集）上进行过训练或微调。ShareGPT 是最先进的数据集。下图为 PALO 架构概览。

凭借其全面的语言支持和先进的技术，PALO 为全球用户创造了一种更易于使用的模式。这样，它就能在不同语言和文化之间架起桥梁，为全球通信开辟新的可能性。

本文还开发了一个多语言视觉和语言定向调谐数据集。该数据集涵盖了广泛的语言多样性，旨在充分挖掘 Liu 等人（2023b）提出的最先进的大规模多模态模型的潜力。具体来说，它引入了基于 Brown 等人（2020 年）的大规模语言模型的半自动翻译管道，以优化从英语到多种语言的翻译过程。这种方法可以建立高质量的多语言数据集，同时应对特定语言的挑战，如标点符号错误和语法细微差别。

该管道将自动脚本编写与每种语言的母语人士的人工审核相结合，以提高翻译的准确性和跨语言的一致性。特别是，它能解决语言特有的细节问题，如准确使用性别和整体语言一致性。

此外，由于认识到大规模语言模型的局限性，我们使用高质量的数据集对大规模语言模型进行了微调，数据集由 1K 个对话组成，每个语言的对话都经过人工验证和修改。这种微调不仅侧重于提高翻译的准确性，还侧重于提高与每种语言特点的一致性，例如语气和符号。改进后的大规模语言模型将被用于翻译成包含约 15 万条指令的大量 VLM 指令调整数据集，并在 OpenAI 微调平台上进行进一步调整。

这一精心准备的过程产生了一个全面、高质量的多语言数据集，它是 PALO 微调工作不可或缺的一部分。

该数据集极大地提高了模型在其包含的所有语言中生成上下文和语法准确内容的能力。例如，下图突出显示了英语到阿拉伯语翻译中的两个关键改进。在第一个例子中，词汇准确性得到了提高，而在第二个例子中，语法一致性得到了提高。

将这一数据集整合到大规模多模态模型的学习过程中，是扩大有效包含英语和其他九种语言的能力的关键。

试验

研究小组对不同语言进行了全面验证，以评估多语言能力。在验证过程中，使用了一个高质量的评估集，并通过 GPT-4-Turbo 进行了翻译和人工微调。评估集由 24 幅图片组成，涵盖了室内外场景、备忘录和艺术作品等广泛内容，还有 60 个问题用于测量理解和概括这些内容的能力。

实验结果表明，"PALO "在高资源语言中表现强劲，尤其是 7B 和 13B 模型，在这些语言中的平均得分分别为 59.0 分和 63.8 分。这表明，"PALO "在不影响模型固有能力的情况下有效地进行了多语言扩展。此外，在低资源语言中，两种模型的性能都有显著提高，得分分别提高到 55.6 分和 59.2 分。结果如下表所示。

所有 10 种语言的总体性能也有所提高，7B 模型的平均得分达到 57.65，13B 模型的平均得分达到 61.97。这表明，我们成功开发出了一种更全面、更多样、性能更高的视觉语言模型（VLM），能够在视觉语言任务中处理复杂的世界语言情况。

下图还显示了说明 PALO 多语言能力的定性结果。在回答用户询问时，模型会生成与视觉内容和相关语言有关的准确文本回复。该插图强调了通过多种语言将视觉和语言理解联系起来的能力。该插图展示了两种高资源语言（西班牙语和中文）和两种低资源语言（印地语和阿拉伯语）的对话。

PALO 准确地诠释了该图像的一个不同寻常之处，即在一家现代超市中出现了两个身着中世纪服饰的人。该模型用中文展示了创造性的想象力，并提出了一个背景故事，即这两个人物可能是故事书中的国王和王后。在印地语中，PALO 展示了情景构建，描述了一对中世纪夫妇可能作为时间旅行者来到今天的情景；在阿拉伯语中，PALO 表现出了幽默感，想象了国王可能会说的俏皮对话。显示了一种微妙的理解。该图像有效地将处理和制作多语言内容的高级能力形象化，体现了高度的语言准确性和文化智慧。

下图还展示了 PALO 在多种语言中的视觉推理能力和聪明才智的定性结果–PALO 能够根据每种语言的语境对视觉内容做出准确的反应。图中描述了三种高资源语言（法语、俄语和日语）和一种低资源语言（乌尔都语）的对话。在法语片段中，模型利用冰箱中的现有配料推荐食谱，将视觉识别与食物建议联系起来，从而展示了实用推理。在俄语中，PALO 能识别出富含维生素 C 的食物。在乌尔都语的例子中，模型将冰箱中的食物归类，展示了对食物进行分类和应用营养知识的能力。这有效地突显了在保持会话语境的同时进行语言切换的能力，并反映了用高资源和低资源语言制作相关的、具有文化意识的内容的能力。

值得注意的是，移动模型在高资源语言和低资源语言方面都有持续改进，与 MobileVLM 基线相比，总体得分平均提高了 33.9 个百分点。有趣的是，移动版本还提高了英语和中文等高资源语言的性能。这种差异可归因于语言模型的预训练数据。具体来说，LLaMA-2 和 MobileLLaMA 之间存在差异，前者是在 2 万亿个词组上训练的，能更好地代表高资源语言，而后者主要是在 1.3 万亿个英语词组上训练的。

这项研究为模型在多语言视觉语言任务中的表现和多功能性开辟了新的可能性。这些结果表明，我们的方法有可能极大地提高我们对全球各种语言的视觉语言任务的理解和应对能力。

总结

本文开发了一种新的多语言大规模多模态模型 PALO。PALO 可将图像和文本查询作为输入，并能有效地与多种语言交互。它可以与多种语言进行交互。通过翻译 10 种语言的 150,000 条指令，并对每种语言进行 1,000 次人工标注对话，对模型进行了改进；通过在三种不同规模（1.7 亿、70 亿和 130 亿）的学习，PALO 提高了其在视觉和语言评估方面的整体性能、这证明了它的多功能性和可扩展性。

不过，半自动翻译过程可能无法完全捕捉每种语言特有的文化细微差别，这可能会影响文化深度和准确性。此外，虽然所选的 10 种语言覆盖面很广，但也表明仍有扩展到更多语言的空间。此外，大规模语言模型的固有偏差，尤其是在低资源语言中，可能会对视觉数据的细微解读造成风险，例如对文化符号和手势的误读。需要对学习进行仔细评估和应用，以应对这些挑战，并确保在文化敏感背景下的准确性。

PALO 的开发和实施是朝着减少语言间障碍和丰富全球交流迈出的重要一步，但其实施还需要仔细考虑和改进。本文作者表示，将公开代码、模型和数据集。希望这将有助于该领域的进一步发展。