Flan-T5是一种基于T5架构的预训练语言模型,由谷歌提出。它在T5的基础上通过指令调优和其他改进,增强了模型在各种任务上的性能。例如,谷歌的研究者将模型参数上升至540B,微调任务的数量高达1800多个,还采用了最新的Prompting机制——Chain of Thought(CoT),让语言模型有了自我改进的能力。在Hugging Face上开源了5个FLAN-T5的checkpoints,参数量范围从8000万到110亿。FLAN-T5单个模型就可以在1800多个NLP任务上都有很好的表现,实现“One model for ALL tasks”。
LLaMA是Meta推出的一系列基础语言模型,参数量从7亿到65亿不等,现在最高直接干到405B。其在体积上更为紧凑,却能提供卓越的性能表现,大幅减少了进行新方法实验、验证他人工作成果以及探索创新应用场景所需的计算能力和资源。这些基础模型是在庞大的未标记数据集上训练而成,非常适合进行各种任务的微调。然而,Llama在中文支持方面存在不足,经常会出现用户用中文提问,而它用英文或混合中英文回答的情况。
Mistral是法国的AI初创公司。它推出了多个令人瞩目的产品和功能,如可以进行网络搜索的聊天机器人LeChat,以及多功能工具“画布”。其新发布的产品包括PixtralLarge和MistralLarge24.11等模型,PixtralLarge拥有1240亿个参数,在多模态基准测试中表现出色。Mistral还发布了针对笔记本电脑和手机优化的Ministral 3B和 Ministral 8B模型,在多个AI基准测试中表现优于同类型的Llama和Gemma模型,特别是在指令执行和问题解决能力方面。此外,Mistral在效率上更有优势,仅用10人的团队就推出了第一个LLM模型,培训成本不到50万美元。Mistra