大型语言模型(Large Language Models,LLM)是人工智能领域中的一种技术,它们通常由数亿甚至数十亿个参数构成,能够处理和生成自然语言文本。这些模型通过在大量文本数据上进行训练,学习语言的模式和结构,从而能够执行多种语言任务,如文本生成、翻译、摘要、问答等。
一、国际开源动态
全球范围内,开源大模型的生态展现出了前所未有的活力,其中:
● OpenSora代表了视频生成领域的一项突破,提供了一个高效且全面开源的解决方案,复现了类Sora的先进功能。
● GROK作为当前参数量最大的开源语言模型(LLM),凭借其3140亿参数的混合专家架构,树立了新的技术标杆。
● 谷歌通过Gemma展示了对开放生态的支持,提供2B参数模型的开源访问,并对7B参数模型实行免费商用许可。
● Mistral AI的创新性大模型不仅在技术上超越了GPT-3.5,还推动了行业对大模型潜能的重新评估。
● LLama2由Open Meta引入,其可商用的开源特性,为行业实践提供了新的选择,特别是在13B参数级别上的表现。
● Falcon凭借阿联酋技术研究所的3.5万亿token训练规模,显著提升了性能指标,直接挑战了LLaMA2的领先地位。
● Vicuna、OpenChat、Guanaco等一系列模型,通过对LLama系列或其他基础模型的指令微调,实现了特定任务性能的显著优化,展现了大模型