OpenAI封锁中国？国产大模型开启价格战？收好这份LLM选购指南，带你搞定极致性价比

本文链接：https://blog.csdn.net/ShowMeAI/article/details/139131828

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

1. Cloud LLM capability, cost, performance | 一份开发者最实用的大模型「性价比」计算手册

这是 Harlan Lewis 整理的大语言模型 (LLM) 对比清单，从capability 能力、cost 成本、throughput 吞吐量 三个指标，对国外最新主流大模型进行了打分，并绘制了可视化图。

完整版本如下所示 👇

模型数量：27 (国外为主)

更新频率：非常及时

推荐指数：⭐⭐⭐⭐⭐

开发者最常使用 & 近期推出的领先大模型，都被加入了这份表单。比如，Claude 3.5、GPT-4o、Gemini 1.5、Llama 3、Groq、Phi、Command R+ 等大模型系列，以及来自中国的 DeepSeek-V2。

评价指标包含两部分。上半部分 (黄色背景) 是各大模型在 MMLU、MATH、GPQA、HumanEval、MT Bench 等基准测试中的得分；下半部分 (白色背景) 是各大模型在各项测评指标中的得分，包括上下文窗口、最大输出 token 数、吞吐量、速率限制、1M token 的输入成本 & 输出成本……

根据作者设定的评价指标，有几个关键结论值得注意：

👍 GPT-4o 功能一骑绝尘，吞吐量仅仅次于最快的模型，成本也控制得非常好。
👍 Gemini 1.5 Flash 吞吐量遥遥领先 (不包括 Groq) ，在基准测试中表现不错，每个 token 的成本也控制到较低。
Gemini 1.5 Flash 和 GPT-4o 这两个模型一起，几乎覆盖了各种功能/速度/成本需求的任务，完全取代了5月份之前的开发方案。
👎 Claude 3 Opus 功能靠前，但吞吐量低，且每个token的成本很高。它与初始版本的 GPT-4 相比还算有优势，但与最新的前沿大模型 (GPT-4o、GPT-4 Turbo、Gemini 1.5 Pro、Llama 3 70B) 相比，Claude 3 Opus 在成本方面完全没有竞争力。
Groq 系列大模型有多种版本，且吞吐量和成本都有巨大的领先优势。但因为它的云API服务还不成熟，所以没有在表单中呈现出来。

原始的 Google 在线表单，作者维护和更新都非常及时。你可以访问 👇 下方链接获取最新版

官网 → https://docs.google.com/spreadsheets/d/1foc98Jtbi0-GUsNySddvL0b2a7EuVQw8MoaQlWaDT-w

2. Artificial Analysis | 一份更完备、更客观的 AI大模型 (LLM) 购物指南

Artificial Analysis 是目前看到最完备的大模型性能对比网站啦！

不仅基于数据进行了大量分析和可视化，还给出了质量、价格、性能、速度、上下文窗口等关键指标的详细排名，帮你选择最合适的大模型和API提供商。

感受下网站风格和主要内容 👇

模型数量：38 (国外为主)

更新频率：非常及时

推荐指数：⭐⭐⭐⭐⭐

网站对比维度非常丰富，可视化图 & 结论也很清晰，而且支持自定义交互，非常实用！

各能力维度的比较 (Quality Comparison by Ability)
质量 vs. 吞吐量 (Quality vs. Throughput)
质量 vs. 价格 (Quality vs. Price)
吞吐量 (Throughput)
定价：输入和输出价格 (Pricing: Input and Output prices)
……

整体来看，各关键指标中得分高的大模型有 👇

质量 (Quality)：GPT-4o、GPT-4 Turbo、Claude 3 Opus、Llama 3 (70B)
吞吐量 (Throughput)：Gemma 7B、Gemini 1.5 Flash、Llama 3 (8B)、GPT-3.5 Turbo Instruct
延迟 (Latency)：Mistral 7B、Mistral Medium、Mixtral 8x7B、Mixtral 8x22B
价格 (Price)：Gemma 7B、OpenChat 3.5、DeepSeek-V2、Llama 3 (8B)
上下文窗口 (Context Window)：Gemini 1.5 Flash、Gemini 1.5 Pro、Claude 3 Opus、Claude 3 Sonnet