前沿科技速递🚀
Mistral AI重磅推出最新开源模型Mistral Large 2,这款旗舰模型在性能、成本效益和多语言支持方面全面超越Llama 3.1。Mistral Large 2拥有1230亿参数,尽管参数量仅为Llama 3.1的三分之一,但在MMLU基准测试中表现优异,预训练版本达到84.0%的准确率。经过大量代码数据训练,Mistral Large 2在代码生成和推理能力上也达到了与GPT-4o、Claude 3 Opus和Llama 3 405B等领先模型相媲美的水平,为开发者和研究人员提供了强大而高效的工具。
来源:传神社区
01 全面升级的性能与成本效率
Mistral Large 2延续了Mistral AI的优良传统,在成本效益、速度和性能方面取得显著进步。尽管参数量仅为123B,但在多个评估指标上表现优异。特别是在MMLU基准测试中,预训练版本达到了84.0%的准确率。这一成绩已经超过了340B参数的Nemotron,并与GPT-4(85.1%)和Llama 3.1(87.3%)基本处于同一水平。
02 代码生成与推理能力:减少“幻觉”,追求准确性
基于在Codestral 22B和Codestral Mamba上的丰富经验,Mistral AI在大量代码数据上对Mistral Large 2进行了训练。Mistral Large 2的性能远超之前的Mistral Large,与GPT-4o、Claude 3 Opus和Llama 3 405B等领先模型不相上下。此外,Mistral AI还投入了大量精力来增强模型的推理能力。训练期间的一个关键重点是尽量减少模型产生“幻觉”或生成听起来合理但实际上不正确或不相关的信息的倾向。通过微调模型,使其在响应中更加谨慎和敏锐,从而确保提供可靠和准确的输出。
新的 Mistral Large 2 经过训练,可以在找不到解决方案或没有足够信息来提供自信答案时进行确认。这种对准确性的承诺反映在模型在主流数学基准测试中的改进表现,展示了其增强的推理和解决问题的能力:
03 指令执行与对话
Mistral AI大幅改进了Mistral Large 2的指令跟踪和对话功能。新的Mistral Large 2在遵循精确指示和处理长时间多轮对话方面表现尤为出色。以下是其在MT-Bench、Wild Bench和Arena Hard基准测试中的表现:
在某些基准测试中,生成冗长的回答往往能够提高得分。然而,在许多商业应用中,简洁至关重要——简短的模型生成能够加快交互速度,并降低推理成本。因此,我们投入了大量精力,确保模型生成的内容尽可能简洁明了。下图展示了不同模型在MT Bench基准测试中的平均回答长度:
04 语言多样性
如今,许多商业应用都涉及处理多语言文档。Mistral Large 2在大量多语言数据上进行了训练,支持包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、俄语、中文、日语、韩语、阿拉伯语和印地语在内的多种语言。它在多语言MMLU基准测试中的出色表现,证明了其强大的多语言处理能力。
05 工具使用与函数调用
Mistral Large 2具备增强的函数调用和检索能力,能够熟练执行并行和顺序的函数调用,准确率甚至超过了GPT-4o。该模型成为复杂商业应用的强大引擎,助力开发者高效构建各种应用。
06 模型试用
小编上手体验了一下Mistral Large 2,可以看到它的中文能力还是很不错的,快来传神社区下载体验吧~
07 模型与论文下载
传神社区:https://opencsg.com/models/AIWizards/Mistral-Large-Instruct-2407
huggingface:https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
blog:https://mistral.ai/news/mistral-large-2407/
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https:// github.com/opencsg
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
关注OpenCSG
加入传神社区