欢迎来到雲闪世界。自 2022 年 11 月推出 ChatGPT 以来,几乎每周都会出现新的模型、新颖的提示方法、创新的代理框架或其他令人兴奋的 GenAI 突破。2024 年 7 月也不例外:仅在本月,我们就看到了Mistral Codestral Mamba、Mistral NeMo 12B、GPT-4o mini和Llama 3.1等的发布。这些模型在推理速度、推理能力、编码能力和工具调用性能等领域带来了显着的增强,使其成为商业用途的有力选择。
在本文中,我们将介绍最近发布的模型的亮点,并讨论当今 GenAI 的一些主要趋势,包括增加上下文窗口大小以及提高跨语言和模态的性能。
7 月发布车型概览
米斯特拉尔·科德斯特拉尔·曼巴
- 概述:Codestral Mamba 7B 旨在使用Mamba 架构(而不是大多数语言模型使用的 Transformer 架构)来增强推理和编码能力。此架构支持对更长的序列进行上下文检索,并且已针对最多 256K 个 token 的序列进行了测试。相比之下,大多数基于 Transformer 的模型允许 8-128K 个 token 上下文窗口。与基于 Transformer 的模型相比,Mamba 架构还能够实现更快的推理速度。
- 可用性:Codestral Mamba 是 Apache 2.0 许可下的开源模型。
- 性能:Codestral Mamba 7B 在 HumanEval、MBPP、CruxE、HumanEval C++ 和 Human Eval JavaScript 基准测试中的表现优于 CodeGemma-1.1 7B、CodeLlama 7B 和 DeepSeekv1.5 7B。尽管尺寸较小,但它在这些基准测试中的表现与 Codestral 22B 相似。
图片由作者根据 Mistral AI Codestral Mamba 公告的结果创建
米斯特拉尔 NeMo 12B
- 概述:Mistral NeMo 12B 由 Mistral 和 Nvidia 生产,旨在提供 12B 参数范围内具有竞争力的语言模型,其上下文窗口比大多数这种尺寸的模型大得多。Nemo 12B 具有128K 标记上下文窗口,而类似大小的模型 Gemma 2 9B 和 Llama 3 8B 仅提供 8K 标记上下文窗口。NeMo专为多语言用例而设计,并提供了一个新的标记器Tekken,它在压缩 85% 语言的文本方面优于 Llama 3 标记器。HuggingFace 模型卡表明NeMo 的使用温度应低于早期的 Mistral 模型,他们建议将温度设置为 0.3。
- 可用性:NeMo 12B 是 Apache 2.0 许可下的开源模型(提供基础和指令调整检查点)。
- 性能:Mistral NeMo 12B 在多个零次和五次基准测试中的表现比 Gemma 2 9B 和 Llama 3 8B 好 10%。它在 WildBench 上的表现也比 Mistral 7B 高出近 2 倍,WildBench 旨在衡量模型在需要复杂推理和多轮对话的实际任务中的表现。
图片由作者根据Mistral AI NeMo 公告的结果创建
GPT-4o 迷你
- 概述:GPT-4o mini 是一个小型、经济高效的模型,支持文本和视觉,并提供具有竞争力的推理和工具调用性能。它有一个128K 令牌上下文窗口,输出令牌长度高达16K 。它是 OpenAI 最具成本效益的模型,每百万输入令牌 15 美分,每百万输出令牌 60 美分。OpenAI 指出,这个价格比他们 2022 年的 text-davinci-003 模型便宜 99%,这表明在相对较短的时间内趋势是更便宜、更小、功能更强大的模型。虽然 GPT-4o mini 不像 GPT-4o 那样支持图像、视频和音频输入,但 OpenAI 报告说这些功能即将推出。与 GPT-4o 一样,GPT-4o mini 也经过了内置安全措施的训练,并且是第一个应用指令层次结构方法的 OpenAI 模型,旨在使模型更能抵抗提示注入和越狱。 GPT-4o mini 利用与 GPT-4o 相同的标记器,从而提高非英语文本的性能。
- 可用性:GPT-4o mini 是一个闭源模型,可通过 OpenAI 的 Assistants API、Chat Completions API 和 Batch API 使用。它也可通过Azure AI使用。
- 性能:GPT-4o mini 在多个基准测试中均优于同等规模的模型 Gemini Flash 和 Claude Haiku,其中包括用于衡量推理能力的MMLU(大规模多任务语言理解)、衡量数学推理的MGSM(多语言小学数学)、衡量编码能力的HumanEval和衡量多模态推理的MMMU(大规模多学科多模态理解与推理基准)。
骆驼 3.1
- 概述:Llama 3.1 引入了128K 令牌上下文窗口,与 4 月份仅发布三个月的 Llama 3 的 8K 令牌上下文窗口相比,这是一个重大飞跃。Llama 3.1 有三种大小:405B、70B 和 8B。它提供了改进的推理、工具调用和多语言性能。Meta 的 Llama 3.1 公告称Llama 3.1 405B 是“第一个前沿级开源 AI 模型”。这表明开源社区向前迈出了一大步,并表明了 Meta 致力于让 AI 触手可及的承诺,马克·扎克伯格在他的文章“开源 AI 是前进的道路”中对此进行了更详细的讨论。Llama 3.1 公告还包括有关启用常见用例的指南,如实时和批量推理、微调、RAG、持续预训练、合成数据生成和提炼。 Meta 还发布了Llama 参考系统,以支持开发人员使用 Llama 3.1 和其他AI 安全工具处理基于代理的用例,包括用于调节多种语言输入和输出的 Llama Guard 3、用于缓解提示注入的 Prompt Guard 和用于降低 GenAI 安全风险的 CyberSecEval 3。
- 可用性:Llama 3.1 是一个开源模型。Meta 已更改其许可证,允许开发人员使用 Llama 模型的输出来训练和改进其他模型。模型可通过 HuggingFace、llama.meta.com 和其他合作伙伴平台(如 Azure AI)获取。
- 性能:在推理、编码、数学、工具使用、长上下文和多语言性能等几乎所有常见语言模型基准测试中,Llama 3.1 模型的表现都优于同规模类别的其他模型。
图片由作者根据Meta Llama 3.1 公告的结提供
GenAI 模型的趋势
总体而言,各种规模的模型都越来越强大,具有更长的上下文窗口、更长的 token 输出长度和更低的价格点。对改进推理、工具调用和编码能力的推动反映了对能够代表用户采取复杂行动的代理系统日益增长的需求。要创建有效的代理系统,模型需要了解如何分解问题、如何使用可用的工具以及如何一次协调大量信息。
OpenAI 和 Meta 最近发布的公告反映了围绕 AI 安全的讨论日益增多,两家公司展示了应对同一挑战的不同方法。OpenAI 采取了闭源方法,通过采纳社会心理学和错误信息专家的反馈并实施新的训练方法来提高模型安全性。相比之下,Meta 加倍投入开源计划,并发布了专注于帮助开发人员缓解 AI 安全问题的新工具。
作者使用 GPT-4o 创建的图像描绘了封闭和开源模型相互竞争的舞台。
结论
未来,我认为我们将继续看到通才模型和专才模型的进步,GPT-4o 和 Llama 3.1 等前沿模型在分解问题和跨模态执行各种任务方面越来越好,而 Codestral Mamba 等专才模型将在其领域中表现出色,并更善于处理其专业领域内的更长上下文和细微任务。此外,我预计我们将看到新的基准,重点关注模型在一次转折中同时遵循多个方向的能力,以及大量利用通才模型和专才模型以团队形式执行任务的 AI 系统。
此外,虽然模型性能通常是根据标准基准来衡量的,但最终重要的是人类如何看待性能以及模型如何有效地实现人类目标。Llama 3.1 公告中包含一个有趣的图表,展示了人们如何评价 Llama 3.1 与 GPT-4o、GPT-4 和 Claude 3.5 的响应。结果显示,Llama 3.1 在超过 50% 的例子中与人类打成平手,其余的胜率大致在 Llama 3.1 和它的挑战者之间平分秋色。这很重要,因为它表明开源模型现在可以轻松地在以前由闭源模型主导的联盟中竞争。
感谢关注雲闪世界。(亚马逊aws和谷歌GCP服务协助解决云计算及产业相关解决方案)
订阅频道(https://t.me/awsgoogvps_Host)
TG交流群(t.me/awsgoogvpsHost)