本文是LLM系列文章,针对《What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models》的翻译。
MLLMs听到了什么?在多模态大语言模型中用文本和声音成分检验推理
摘要
大型语言模型(LLM)已经展示了非凡的推理能力,尤其是在连接思想和遵守逻辑规则解决问题方面。这些模型已经发展为适应各种数据模式,包括声音和图像,称为多模态LLM(MLLM),能够描述图像或录音。先前的工作已经证明,当MLLMs中的LLM组件被冻结时,音频或视觉编码器用于为声音或图像输入加字幕,以便于使用LLM组件进行基于文本的推理。我们感兴趣的是使用LLM的推理能力来促进分类。在本文中,我们通过字幕/分类实验证明,在生成音频字幕时,音频MLLM不能完全利用其LLM的基于文本的推理。我们还考虑了这可能是由于MLLMs分别表示听觉和文本信息,从而切断了从LLM到音频编码器的推理路径。
1 引言
2 多模态大语言模型中的推理
3 实验1:上下文音频分类
4 实验2:检查音频MLLM中的概念表示
5 局限性
6 结论和未来工作
在本文中,我们评估了音频MLLM,特别是LTU,是否可以利用LLM的推理能力,通过提示在上下文中学习(实验1)。我们展示了当前音频MLLM在通过上下文提示利用其LLM的推理能力方面的局限性。这导致了实验2的设计