一个容易被忽略的开源大模型强者：Mistral Large 2！附体验地址

最新推荐文章于 2024-10-04 22:36:54 发布

木易AI信息差

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量1.1k

点赞数 8

文章标签：人工智能深度学习神经网络 ai gpt

本文链接：https://blog.csdn.net/weixin_40774379/article/details/141578532

版权

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

说起AI领域的开源模型，大家脑海里首先想到的是哪个？估计99%的小伙伴都会回答：Meta的Llama系列模型。毕竟，它太火了，而且确实有实力，尤其是大约一个月前发布的Llama 3.1，其中的Llama 3.1 405B模型在多个基准测试中超越了GPT-4o和Claude 3.5 Sonnet。希望了解更多的小伙伴可以翻看我之前的这篇文章：《史上最强开源模型Llama 3.1，媲美GPT-4o和Claude 3.5 Sonnet！》。

除了Meta的Llama外，还有一个实力强劲的开源AI模型，那就是Mistral AI的Mistral Large系列模型。几乎是和Meta同一时间，Mistral AI也是在上个月发布了Mistral Large第一代的升级版本：Mistral Large 2。

关于Mistral Large 2

上下文窗口：Mistral Large 2具有128k的上下文窗口，能够处理长文本输入。
多语言支持：支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的多种语言，涵盖全球主要语言。
编程语言支持：支持80多种编程语言，包括Python、Java、C、C++、JavaScript和Bash，适用于多种编程任务。
参数规模：拥有1230亿参数，使其在单节点上运行时，能够提供高吞吐量的推理能力，适合复杂的计算任务。
许可类型：在Mistral研究许可证下发布，允许用于研究和非商业用途。对于需要自我部署的商业用途，需获取Mistral商业许可证。
性能表现：在MMLU（多任务语言理解）基准测试中，预训练版本的准确率达到了84.0%。

代码和推理能力

代码生成和数学性能

作为一个1230亿参数的模型，Mistral Large 2的代码生成和数学性能与4050亿参数的Llama 3.1 405B相近甚至更高，体现出“小而美”的高性能/尺寸比。

四个代码生成基准测试

看了Mistral Large 2在以下四个代码生成基准测试中的表现，只能用“稳定”来形容。和最顶级的私有模型如GPT-4o和Claude 3.5 Sonnet相比有差距，但表现和Llama 3.1 405B相近，甚至在Human Eval和Human Eval Plus测试中表现更好。

MultiPL-E基准测试

在MultiPL-E基准测试中，Mistral Large 2在大多数编程语言上的表现优异，已经达到了“尖子生”的水平，平均分为76.9%，仅次于GPT-4o。

两个数学基准测试

以下是Mistral Large 2在GSM8K的8-shot和Math Instruct的0-shot（无链式推理，CoT）基准测试中的性能表现。综合来看，表现属于第一梯队，和GPT-4o和Claude 3.5 Sonnet表现有差距，但差距也并没有太大，说明其在数学推理和生成任务中的能力。