Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages

最新推荐文章于 2024-10-01 20:47:03 发布

善良的L君丶

最新推荐文章于 2024-10-01 20:47:03 发布

阅读量109

点赞数

文章标签： llama

原文链接：https://arxiv.org/pdf/2403.06354

版权

摘要

像GPT-4和LLaMA这样的大型语言模型（LLM）在自然语言处理任务方面表现出了可信的熟练度，甚至开始擅长视觉和音频等其他模式的任务。尽管LLM取得了成功，但由于可用的训练数据太少，它们往往难以在低资源语言上表现良好。这种简化在开源模型中尤其普遍。在这项工作中，我们探索训练LLaMA-2说阿姆哈拉语，阿姆哈拉语是一种全世界有5000多万人使用的语言，但其可用数据比英语等语言少几个数量级。我们使用以前用于在其他数据稀缺的语言上训练LLM的方法，并使用开源翻译模型来执行数据扩充，并将我们的数据集从数百万个令牌增长到数十亿个令牌。我们通过连接图像编码器，并以与LLaVA相同的方式在翻译的视觉指令调整数据集上进行训练，进一步增强了我们模型的能力，从而形成了一个可以理解图像和文本的多模式阿姆哈拉语LLM。我们引入了一个流行的基准测试数据集的阿姆哈拉语版本来评估我们的工作。我们的模型和数据集是开源的，可在GitHub上获得。

1 引言

近年来，自然语言处理（NLP）领域发生了巨大的变革，主要是由于转换器架构的发展（Vaswani et al.，2017）及其随后通过大型自监督神经网络应用于语言建模，通常在数万亿个令牌上训练数百亿或数千亿个参数。最近的突出模型包括GPT系列（Brown等人，2020）、PaLM（Chowdhery等人，2022）和LLaMA（Touvron等人，2023）等。尽管截至2023年末，最先进的性能通常仍仅通过专有模型实现，但LLaMA的发布已经让位于一个充满活力的开源社区，该社区产生了接近SOTA的开放模型，如Mistral（Jiang et al.，2023）和Mixtral（Jiang等人，2024）。尽管LLaMA只能处理文本输入，但最近的项目通过将其与预训练的视觉或音频编码器对齐，增加了多模式功能（Zhang et al.，2023）。这些模型最有价值的方面之一是它们能够在不需要额外训练的情况下对新任务和指令进行少镜头或零镜头自适应。这是由大规模的模型参数和训练数据实现的。对于英语等语言，互联网上有大量的公共数据，足以提供数万亿的代币用于预训练。对于缺乏大量数据的低资源语言，大多数LLM要么无法执行高级别的任务，要么根本不理解该语言。

在这项工作中，我们专注于开发一个开源的多模式语言模型，该模型可以用阿姆哈拉语执行NLP任务并理解图像。阿姆哈拉语是埃塞俄比亚的官方语言，是一种闪米特语，全世界有5000多万人使用。然而，它在公共互联网上却极为罕见。存在几个阿姆哈拉语NLP数据集，但通常不超过100万个令牌，并且通常专注于特定任务（Tonja等人，2023）。只有不到0.1%的CommonCrawl2是阿姆哈拉语，即使在没有重复数据消除的情况下组合开源数据集，我们也发现可用的阿姆哈拉语代币不到5亿个。此外，这些数据的内容往往偏向于新闻和政治等有限的话题。先前针对代表性较低语言的语言建模工作在汉语（Cui et al.，2023）和芬兰语（Luukkonen et al.，2021）上显示出了有希望的结果，采用了多种方法，包括扩展的开源LLM预训练、从头开始开发新的预训练模型以及标记器扩展。用于训练中文和芬兰语模型的数据集分别有数百亿和数千亿个代币。我们的工作以中国Llama和Alpaca的方法为基础，并使用扩展的标记器继续对Llama-2进行预训练。即使与其他资源较低的语言相比，可用的阿姆哈拉语数据量也特别少，比之前的工作少了几个数量级的数据。为了增加数据的规模和多样性，我们应用机器翻译从RedPajama数据集中的英语文本中创建了数十亿个不同的合成阿姆哈拉语令牌（Computer，2023）。

直到最近，阿姆哈拉语的开源翻译模型还不准确，但无缝M4T（Barrault et al.，2023）等工作已经产生了接近甚至在某些情况下超过专有翻译模型准确性的结果。通过翻译生成数据对翻译任务是有效的（Sawai et al.，2021），我们应用这项技术的目的是希望模型所说的阿姆哈拉语的质量不会超过翻译质量，但仍然可以为一般的NLP和图像理解任务提供比小数据集的改进。在这个增强数据集上预训练后，我们训练一个小的MLP投影（Liu et al.，2023a），将CLIP编码器（Radford et al.，2021）连接到我们预训练的网络，然后对通过以类似方式翻译英语教学调整数据集获得的阿姆哈拉语教学调整数据（Ouyang et al.，2022）应用监督微调。指令调整包括纯文本会话对和包含来自CLIP的图像特征的视觉指令数据（Liu et al.，2023b）。我们用阿姆哈拉语MMLU评估我们的模型，阿姆哈拉语版本的流行LLM基准数据集MMLU（Hendrycks et al.，2021）。我们再次应用翻译，从标准英语MMLU创建阿姆哈拉语MMLU。

2 模型

LLaMA-2是一个开源的基础语言模型，其性能与类似的专有模型不相上下。LLaVA是一个开源的多模式模型，它将CLIP视觉编码器添加到LLaMA中，并对端到端进行训练，以便将图像编码与LLaMA对齐，并实现视觉理解和推理。LLaMA-2具有7B、13B和70B参数的变体。为多回合对话设置调整的聊天变体可用于每种型号。由于资源有限，我们在所有实验中都使用7B标准（非聊天调谐）变体。

与之前的工作一样，我们将LLaMA-2预训练扩展到一个历元，在此期间，通过对非结构化阿姆哈拉语文本的下一个标记预测来训练模型。我们通过用翻译的图像字幕数据集训练两者之间的小MLP映射，将CLIP编码器与预训练的模型对齐。接下来是对我们的多模式阿姆哈拉语指令数据集的一个微调时代。

LLaMA标记器不适合阿姆哈拉语数据。由于阿姆哈拉语文本相对于公共文本中的其他语言非常罕见，阿姆哈拉语字符不像更常见的语言那样有专用的标记。例如，在英语中，一个单词可能映射到一个标记。对于构成阿姆哈拉语（和其他罕见字符）的Ge’ez字符，LLaMA tokenzier和其他人通过用多个通用字节标记的组合来表示它们来解决这个问题。在某些情况下，这意味着一个阿姆哈拉语单词可能被编码为10+个标记，而一个等效的英语单词可能只需要一个标记。

除了阻碍学习之外，这种标记化方案还增加了正在处理的任何文本的序列长度，这对于变换器相对于序列长度的缩放是有问题的，并大大降低了有效的上下文窗口和处理速度（这种影响甚至可以在专有模型上观察到，当使用稀有字符进行查询时，这些模型的流式响应往往会更慢）。遵循汉语LLaMA的方法，我们使用句子片段（Kudo&Richardson，2018）从我们的公共（未翻译）阿姆哈拉语数据中学习阿姆哈拉语的标记化方案，得到19008个标记的阿姆哈拉语标记词汇。我们将其与32000个令牌的LLaMA令牌化器相结合，以获得51008的新词汇大小。我们保持原始嵌入不变，尽管当英语标记偶尔出现在阿姆哈拉语数据中时，它们可以在训练期间更新。表1说明了使用新词汇表改进的标记化。

3 数据

对于我们的预训练任务，我们使用了一个由4.36亿个来自公共来源的令牌组成的组合数据集，包括Common Crawl、Azime和Mohammed（2021）和各种网络抓取，以及从Red Pajama数据集翻译的另外33.48亿个阿姆哈拉语令牌，特别是包含维基百科和各种书籍文本的部分。表2包含了确切的比例。

为了翻译英语数据，我们应用无缝M4T大模型进行文本到文本翻译，将英语指定为阿姆哈拉语。对于图像编码器对齐和视觉指令调整，我们使用无缝M4T来翻译BLIP字幕数据集（Li et al.，2022）和LLaVA视觉指令调整数据集。

我们微调任务中的纯文本指令对包括Alpaca（Taori et al.，2023）、Dolly（Conover et al.，2022）和OpenAssistant（Köpf et al.，2021）数据集的阿姆哈拉语翻译版本。我们使用谷歌翻译API翻译Alpaca和Dolly，使用无缝M4T翻译OpenAssistant。我们修剪OpenAssistant会话树，以确保在我们的数据集中只使用高评级的响应。除了这些阿姆哈拉语数据集外，我们还创建了英语和阿姆哈拉语混合数据集，以帮助模型利用现有的英语标记知识，进一步了解新的阿姆哈拉语标记及其与模型可能已经很好地理解的英语概念的关系。我们用原始未翻译的数据替换指令对中的人工或人工智能角色，并在提示中添加一个规范，指示人工智能角色应回答的语言。我们通过翻译任务进一步扩充了这些数据，在翻译任务中，翻译指令对的人类或人工智能角色将其英语和阿姆哈拉语版本插入到指定翻译的新合成指令对中。

我们的无缝M4T翻译在A100 GPU上执行数周。由于无缝M4T的性能可能会受到长序列的影响，因此文本一次被翻译成几句话的块，不超过固定的标记限制，非常长的句子完全被排除在外。为了加快翻译速度，我们使用批量推理，并根据长度将句子映射到不同大小的批量中，在翻译后重新排序。

4 实验

我们遵循中国LLaMA实验的7b参数模型子集中使用的实验设置和超参数配置。对于视觉教学调整，我们遵循LLaVA-1.5中使用的实验设置。当结合视觉和纯文本指令调整时，我们使用LLaVA-1.5设置。我们使用LoRA（Hu et al.，2022）作为注意力层，但不使用量化进行训练。

我们在单个A100 GPU上为每个模型训练一个历元，这需要1-4周的预训练和2-7天的微调。预训练在计算上更昂贵，而且由于我们的资源有限，我们选择在微调阶段进行大多数实验。我们使用从公共来源收集的4.36亿个代币进行了一次预训练，另一次使用我们增强的3784万个代币数据集进行了预训练，其中大部分是合成翻译数据。我们使用3784m模型作为大多数微调实验的基础。

我们对数据集的不同版本进行了微调，以探索包括英语数据和翻译任务与纯阿姆哈拉语数据相比的效果。我们只比较阿姆哈拉语数据、英语数据、阿姆哈拉语后的数据以及所有数据。我们比较了视觉教学调整对纯文本任务的影响，并探讨了相对于其他训练阶段，模型暴露于视觉数据的顺序。我们使用可视化和纯文本指令数据进行微调，并将其与省略纯文本数据进行比较。

5 结果和评估

定量评估对于低资源的语言来说是困难的。与训练数据一样，衡量良好的基准，甚至是作为基准的基准都很少。我们再次使用SeamlessM4T来创建广泛使用的英语MMLU数据集的阿姆哈拉语基础版本，用于语言任务评估。我们通过提出多项选择题，用MMLU测试我们的模型的文本理解和世界知识。

在大多数主题中，使用增强数据集预训练的变体优于使用较小数据集的变体，但有一些显著的例外。如图1所示，这两个模型甚至都没有超过数学、逻辑和物理等STEM主题的随机猜测基线。我们怀疑这可能是由于问题的性质，一个字符的误译可能会完全改变问题和答案的含义。相比之下，在法律和伦理等主题上，这些模型往往明显优于基线。表3比较了所有阿姆哈拉语MMLU主题的模型，以及排除STEM主题的模型。从质量上讲，我们的模型在各种任务中表现良好，包括文本生成、摘要和命名实体识别，以及视觉问答和多张图片的分析。图2和图3包含示例。

尽管这两种视觉模型都能提供关于图像的连贯答案，但它们在不同领域都表现出色。只看到视觉指令数据而不看到纯文本数据的模型往往能对多模式查询做出更好的响应，但在纯文本查询方面做不到。

该模型看到了完整的视觉和文本数据，其性能优于所有纯文本变体，在阿姆哈拉语MMLU上具有最佳的整体性能，但对多模式查询的响应不太详细，更容易在图像细节方面出错。两个视觉模型都可以响应包含多个图像的查询，如图4所示，但随着图像数量的增加，性能会迅速恶化，使模型无法理解视频。附录中包括了更多的定性示例、与GPT-4（OpenAI等人，2023）的比较以及故障案例。