必学大模型！决战Llama 3.1！史上最强的开源大杀器。。。

本文链接：https://blog.csdn.net/2301_81887304/article/details/141644098

前言

Llama 3.1是Meta最新推出的开源大语言模型，有三种规格：8B（80亿）、70B（700亿）和405B（4050）亿参数，支持八种语言，具备128K扩展上下文长度。它提供卓越的通用知识、数学计算、多语言翻译和工具使用能力，开放下载并允许开发者定制和微调。

近期发布的Llama 3.1模型，让AI社区着实为之兴奋。

但是仔细一想就能发现——405B的参数规模，基本是没法让个人开发者在本地运行了。

有一位勇敢的推特网友亲测，用一张英伟达4090运行Llama 3.1。

在这里插入图片描述

结果可想而知，等了30分钟模型才开始回应，缓缓吐出一个「The」。

在这里插入图片描述

最后结果是，Llama给出完整回应，整整用了20个小时。

在这里插入图片描述

根据Artificial Analysis的估算，你需要部署含2张8×H100的DGX超算才能在本地运行405B。

看来，小扎对Llama 3.1成为开源AI界Linux的期待，可能和现实有不少的差距。目前的硬件能力，很难支持405B模型的大范围全量运行。

此时，又一位开源巨头Mistral精准踩点，发布了他们的最新旗舰模型Mistral Large 2。

在这里插入图片描述

Mistral Large 2在代码生成、数学和推理等方面的能力明显增强，可以与GPT-4o和Llama 3.1一较高下。

而且，模型参数量仅有123B，不到Llama 3.1 405B的三分之一，完全可以在单个节点上以大吞吐量运行。

成本效率、速度和性能的「三角形战士」，Mistral Large当之无愧——

和GPT-4o比，它开源；和Llama 3.1 450B比，它参数少；和Llama 3 70B比，它性能好。

推特网友惊呼，「开源AI就这么卷起来了吗！」

在这里插入图片描述

短短一周时间内，GPT-4o mini、Llama 3.1、Mistral Large 2相继发布，有些让人应接不暇。

「我躺了，你们先卷着。」

在这里插入图片描述

但躺平阵营中绝对不包含ollama。前脚Mistral刚官宣，这边就火速更新。

在这里插入图片描述

果然，参数量砍去一大半之后，本地部署难度就大大下降了。

同样从ollama上下载模型，用96GB内存还是可以顺利运行起来的。

在这里插入图片描述

虽然3 token/s的生成速度慢了点，但比起用20个小时等模型响应，已经是质的飞跃了。

用前段时间击穿GPT-4o的「9.11 vs. 9.9」问题测试Large 2，没想到它竟然答对了。

在这里插入图片描述

值得一提的是，Mistral Large首代发布还不到半年（2024年2月），但并没有开源，用户只能通过官方API或Azure访问。

刚发布的Mistral Large 2则已经将模型权重托管到了HuggingFace仓库中，向研究和非商业用途开放，但商业用途的部署仍需要直接联系Mistral以取得许可。

在这里插入图片描述
HuggingFace地址：https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

不仅上下文窗口从上一代的32k增长到了128k（同Llama 3.1），而且有强大的多语言能力，支持数十种自然语言以及80多种编程语言。

令人印象深刻的是，Mistral Large的预训练版本在MMLU上的准确率可以达到84%。

这个成绩已经超过了340B参数的Nemotron，而且与GPT-4（85.1%）和Llama 3.1（87.3%）基本处于同一水平，可以说是将模型性能/成本的Pareto最优边界又向前推进了一步。在这里插入图片描述
出自Llama 3.1论文

代码与推理

基于Mistral之前训练Codestral 22B和Codestral Mamba的经验，研究团队对Mistral Large 2也进行了大量代码训练，支持包括Python、Java、C、C++、JavaScript 和Bash在内的80多种语言。

在代码生成方面，Mistral Large 2远远优于Llama 3.1 70B和之前的Mistral Large，与Llama 3.1 405B不相上下。

在这里插入图片描述

团队在提高模型的推理能力方面也投入了大量精力。在训练过程中，特别关注减少模型的「幻觉」。

实现方法就是通过微调，让模型的响应更加谨慎而敏锐，确保它提供可靠、准确的输出。

此外，经过训练的Mistral Large 2还被赋予了一个品质：承认自己并非无所不知。

在无法找到解决方案，或没有足够信息支撑有效回答时，模型会直接承认而非「不懂装懂」。

Mistral Large 2这种对答案准确性的「责任感」，提升了在数学基准上的表现，展现了更强的推理和解决问题的能力。

在用于代码生成的HumanEval和HumanEval Plus基准测试中，它的表现优于Claude 3.5 Sonnet和Llama 3.1，仅次于GPT-4o。

在这里插入图片描述
代码生成基准测试

在MultiPL-E基准上，Mistral Large 2的平均生成准确率领先Llama 3.1将近1个百分点，而且可以媲美GPT-4o。

纵向比较也可以看出，Codestral系列的经验对Mistral Large 2有不少助益。仅仅过了5个月，Mistral Large系列的生成准确率就从58.8%飙升至74.4%。

在这里插入图片描述

而且，在以数学为重点的基准测试中（GSM8K和MATH），它的表现也可圈可点。

在这里插入图片描述

GSM8K（8-shot）和MATH（0-shot，无CoT）基准测试

指令执行与对齐

Mistral Large 2的指令执行和对话能力也得到了显著提升，在执行精确指令和处理长时间多轮对话方面表现尤为出色。

以下是其在Wild Bench和Arena Hard基准测试上的表现：

在这里插入图片描述
通用对齐基准测试

在一些基准测试中，生成较长的回答通常会提高得分。

然而，在许多商业应用中，答案的简洁至关重要——简短的模型响应可以促进更快速的交互，让推理过程更加高效且降低成本。

Mistral声称Large 2可以比领先的人工智能模型产生更简洁的响应，因为后者倾向于喋喋不休。

下图展示了不同模型在MT Bench基准测试中问题的平均生成长度：

在这里插入图片描述

语言多样性

如今，许多商业应用涉及处理多语言文档。

尽管大多数模型以英语为中心，但Mistral Large 2在大量多语言数据上进行了训练。

比如，在法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语等多种语言上，Mistral Large 2都有出色的性能。

以下是Mistral Large 2在多语言MMLU基准测试中的表现结果，并与之前的Mistral Large、Llama 3.1模型以及Cohere的Command R+进行了比较：

在这里插入图片描述

在下图的8种语言上，Mistral Large 2的性能可以媲美Llama 3.1 405。但值得注意的是，所有模型似乎都在中文MMLU上取得了最低分。

在这里插入图片描述

工具使用与函数调用

Mistral Large 2具备了更强的函数调用和检索能力，能够熟练执行并行和顺序的函数调用，准确率甚至超过了GPT-4o。

在这里插入图片描述

这意味着，Mistral Large 2可以成为复杂商业应用的核心引擎。

除了直接从HuggingFace上下载权重，用户可以通过官方API平台la Plateforme访问或微调模型，免费聊天机器人le chat也已经部署了Mistral Large 2。

Vertex AI、Azure Studio等第三方云平台也托管了Mistral Large 2的API。

在这里插入图片描述

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望