2024年8月15日,来自浙江农林大学(数学与计算机科学学院)冯海林团队在CMC期刊发表名为“Evolution and Prospects of Foundation Models: From Large Language Models to Large Multimodal Models”的文章。在这篇文章中,研究团队首先以ChatGPT 的发展为例,介绍了大型语言模型在文本生成和语言理解方面的贡献,详细概述了从大型语言模型 (LLM) 到大型多模态模型 (LMM) 的演进过程。图 1 展现了研究人员从六个方面对大语言模型和大型多模态模型进行了广泛的概述。探讨融合了文本、图像和声音等各种数据模态的大型多模态模型在理解和生成跨模态内容的实际能力,为人工智能系统的技术发展提供理论支撑。最后,重点介绍了大语言模型和大型多模态模型在同一应用领域中的不同作用与实际价值,同时也指出了大型多模态模型在数据集成、跨模态理解准确性方面的挑战,为基础模型的发展提供全面的视角。
前排提示,文末有大模型AGI-CSDN独家资料包哦!
图1 大语言模型与多模态模型的概述
文章详情
研究背景
人机交互的场景日益复杂多样,因此需要开发通用的模型使计算机能够执行复杂的语言任务。对基础模型的需求源于对机器处理复杂语言任务的日益增长的需求,包括翻译、总结、信