OneLLM:统一框架实现多模态与语言的对齐
基咯咯 Halo咯咯 2024年09月16日 12:45 福建
01。
概述
上图展示了OneLLM的工作原理,它回答与每种输入相关的问题——无论输入的模态如何。其局限性在于仅支持单向对齐,例如图像到文本或音频到文本,而不支持反向或跨模态(如从音频生成图像)。在通过GitHub仓库运行它们的演示应用程序时,得到的响应效果很差。使用LLaMA-2 7B的Gradio聊天应用程序几乎无法理解给定
基咯咯 Halo咯咯 2024年09月16日 12:45 福建
01。
概述
上图展示了OneLLM的工作原理,它回答与每种输入相关的问题——无论输入的模态如何。其局限性在于仅支持单向对齐,例如图像到文本或音频到文本,而不支持反向或跨模态(如从音频生成图像)。在通过GitHub仓库运行它们的演示应用程序时,得到的响应效果很差。使用LLaMA-2 7B的Gradio聊天应用程序几乎无法理解给定