AI主流大模型介绍和API价格比较

在这里插入图片描述

主流的大模型系列

###1. OpenAI: GPT-4,GPT-4 Turbo, GPT-4o

OpenAI 的介绍:

  • 全称:Open Artificial Intelligence,简称OpenAI。
  • 性质:起初为非营利性组织,后转变为由营利性公司OpenAI LP及非营利性母公司OpenAI Inc组成的机构。
  • 成立时间:2015年。
  • 成立地点:美国旧金山。
  • 创始人:包括萨姆·奥尔特曼(Sam Altman)、埃隆·马斯克(Elon Musk)等在内的多位人工智能领域的知名人士。

比较旧的版本的模型就不介绍了。

GPT-4

GPT-4是OpenAI开发的一种生成式预训练转换器模型,全称为“Generative Pre-trained Transformer 4”。
GPT-4可以用于各种任务,如文本生成、翻译、对话等,具有极强的智能化和自适应性。

GPT-4 Turbo

GPT-4 Turbo是GPT-4的一个优化版本,专注于速度和成本效益。 它在2024年4月的OpenAI开发者大会上被正式推出。
特点:

  • 更快的响应速度:经过优化,能够更快地生成响应。
  • 更低的运行成本:使用成本相对较低,适合需要高效处理大量请求且对成本敏感的应用场景。
  • 更长的上下文长度:GPT-4 Turbo具有128k上下文长度,相比GPT-4的8k上下文长度有了显著提升。
  • 全新的模型控制技术:使开发者可以更精细地调整模型输出,提升用户体验。
  • 更新的知识库:GPT-4 Turbo的现实世界知识截止时间比GPT-4更新。
GPT-4o(或GPT-4 Omni)

GPT-4o是OpenAI发布的GPT-4的升级版模型,其中“O”是Omni的缩写,意为“全能”。
它是一种多模态模型,能够处理并生成多种形式的输入和输出,包括文本、音频和图像。

2. Anthropic 的Claude 系列

Anthropic PBC是一家美国的人工智能(AI)初创企业和公益公司,由OpenAI的前成员创立,其中包括OpenAI前研究副总裁达里奥·阿莫迪(Dario Amodei)、GPT-3论文第一作者Tom Brown等。该公司专注于开发通用AI系统和语言模型,并秉持负责任的AI使用理念。其投资者包括谷歌、Salesforce、亚马逊、高通等科技巨头,估值超过150亿美元。

  1. Claude是Anthropic公司开发的AI聊天机器人,与ChatGPT类似,采用消息传递界面,用户可以在其中提交问题或请求,并获得非常详细和相关的回复。Claude具有520亿个参数,能够处理各种复杂的语言任务。
  2. Claude 3系列
    Claude 3系列是Anthropic公司推出的最新一代AI模型,包括Haiku、Sonnet和Opus三个型号。这三个型号在性能上依次提升,允许用户为其特定应用选择智能、速度和成本的最佳平衡。
  • Haiku:被称为“中杯”型号,是市场上同类智能模型中速度最快且最具成本效益的。它可以在极短的时间内阅读大量信息,包括图表和图形的数据密集的研究论文。Haiku即将推出,尚未广泛应用。
  • Sonnet:被称为“大杯”型号,其速度比Claude 2和Claude 2.1快2倍,且智能水平更高。Sonnet擅长执行需要快速响应的任务,如知识检索或销售自动化等。目前,Sonnet已在claude.ai以及全球159个国家和地区的Claude API上使用。
  • Opus:被称为“超大杯”型号,是Claude 3系列中最智能的模型。在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等。Opus在复杂任务上表现出接近人类水平的理解力和流畅性,并且具有强大的视觉能力,能够处理各种视觉格式,包括照片、图表、图形和技术图表等。Opus也已在claude.ai以及全球159个国家和地区的Claude API上使用。

Google 的 Gemini 系列

Gemini是由Google AI开发的多模态大模型,代表了Google在人工智能领域的最先进技术。该系列包括多个型号,针对不同的应用场景和需求进行优化。

  1. Gemini Ultra(双子星至尊版)

    • 功能最强大,适用于高度复杂任务的超大型模型。
  2. Gemini Pro(双子星专业版)

    • 适用于处理各种类型任务的最佳模型。在87%的文本、代码、图像、音频和视频基准测试中超越了Gemini 1.0 Pro。其最大上下文窗口为100万个token(后升级支持至200万token),能够处理大量信息,提高输出的相关性和一致性。
  3. Gemini Flash(双子星闪速版)

    • 轻量级模型,兼具速度、效率、高性价比和强大的多模态推理能力。适用于需要快速处理海量数据的各种场景。采用了先进的模型压缩技术,体积小,运行速度快,且成本低廉。
  4. Gemini Nano(双子星迷你版)

    • 最高效的模型,适用于设备端任务

Meta公司的 LLaMA 系列

Meta公司(Meta Platforms, Inc.),原名Facebook,是一家美国互联网科技公司,由马克·扎克伯格创立于2004年2月4日。公司主要经营社交网络、虚拟现实、元宇宙等产品,旗下主要包括Facebook、Instagram、WhatsApp和Messenger四款社交通讯应用,日活用户达到32.4亿(2024年第一季度)。2021年,公司改名为Meta,标志着其从社交媒体巨头向人工智能领域的转型。

Meta在大模型领域取得了显著的进展,其开源大模型Llama系列在业界产生了广泛影响。以下是Meta大模型发展的几个关键节点:

  1. Llama系列开源

    • 2023年2月,Meta开源了大语言模型Llama。
    • 2023年7月,开源了Llama 2,并允许免费商用。
    • 2023年8月,推出了开源代码模型Code Llama。
    • 2024年4月,推出了开源大模型Llama 3,提供了8B和70B参数两个版本,同时包含基础模型和指令微调模型,可支持广泛的应用。
  2. Llama 3的性能

    • Llama 3在超过15T的token上进行了预训练,训练数据集是Llama 2的七倍,包含的代码数量也是Llama 2的四倍。
    • Llama 3在广泛的行业基准测试中达到了SOTA(行业最高水准)。在大模型评测社区LMSYS最新大模型排行榜单中,Llama 3 70B位列第五,仅次于GPT-4的3个版本和Claude 3 Opus等闭源大模型,成为最强的开源大模型。

Mistral 大模型 系列

Mistral是一家由Meta Platforms和Google DeepMind前员工于2023年4月创立的法国人工智能公司。公司致力于通过突破性的创新打造开放、高效、有用且值得信赖的人工智能模型,使命是让前沿人工智能无处不在,为所有建设者提供量身定制的人工智能。

    • 准测试中,Mistral-7B表现出色,优于Llama 2 13B,在许多基准测试中甚至优于Llama 1 34B。
    • 它接近CodeLlama 7B的代码性能,同时保持良好的英语任务表现。
  1. Mixtral

    • Mixtral是一种具有开放权重的高质量稀疏专家混合模型(SMoE)。
    • Mixtral在大多数基准测试中都优于Llama 2 70B,推理速度提高了6倍。它是最强大的开放权重模型之一,具有宽松的许可证,也是成本/性能权衡方面的最佳模型。
    • Mixtral可以优雅地处理32k令牌的上下文,支持多种语言,包括英语、法语、意大利语、德语和西班牙语。在代码生成方面表现出强大的性能。
  2. Pixtral 12B

    • Pixtral 12B是Mistral发布的多模态大模型,同时具备语言和视觉处理能力。
    • 它建立在文本模型Nemo 12B基础上,包含一个专门的视觉编码器,原生支持任意数量和尺寸的图像。
    • Pixtral 12B大约有40层神经网络、14336个隐藏维度大小和32个注意力头,以及一个专用的视觉编码器,支持高分辨率图像(1024×1024)处理。
    • 在多模态知识和推理、QA等方面都表现出色。
  3. Mistral Lite

    • Mistral Lite是一款经过优化的语言模型,在处理长文本上下文时表现出色,且在资源受限的环境中也能保持高效性能。
    • Mistral Lite能够有效地处理长度达到32K tokens的上下文,通过调整模型参数和优化上下文处理机制,在长文本上下文中的表现显著优于其他模型。

深度求索公司的DeepSeek

杭州深度求索人工智能基础技术研究有限公司(简称“深度求索”或“DeepSeek”),成立于2023年,是一家专注于实现AGI的中国公司。
DeepSeek大模型主要版本的介绍:

DeepSeek- V1
  • 发布时间:2024年1月。
  • 核心技术:数据端包括去重、过滤、混合3个步骤,旨在构建一个多样性强、纯净的高质量预训练数据;模型端沿用LLaMA的主体Transformer结构,包括RMSNorm的Pre-normalization、SwiGLU激活函数、Rotary Embeddings位置编码等;优化端使用multi-step learning rate代替LLaMA中的cosine learning rate schedule;对齐阶段使用SFT进行人类风格对齐。
  • 参数规模:未具体提及,但提供了7B和67B两种尺寸的模型。
  • 应用场景:作为DeepSeek系列的首个版本,为后续的模型发展奠定了基础。
DeepSeek-V2
  • 发布时间:2024年5月。
  • 核心技术:引入了MLA(Multi-head Latent Attention)架构和自研的Sparse结构DeepSeekMoE,旨在提升模型的推理效率和参数空间。
  • 参数规模:拥有2360亿参数,其中每个token有210亿个活跃参数。
  • 应用场景:能处理自然语言处理中的多种任务,尤其在中文综合能力等方面表现出色,性能达GPT-4级别。
  • 训练方式:基于高效且轻量级的框架HAI-LLM进行训练,采用16-way zero-bubble pipeline并行、8-way专家并行和ZeRO-1数据并行。
DeepSeek-V3
  • 发布时间:2024年12月26日。
  • 核心技术:采用基于Mixture-of-Experts(MoE)架构,通过动态激活相关“专家”来降低计算成本并保持高性能。引入了多头潜在注意力(MLA)架构、无辅助损失的负载均衡策略以及多token预测(MTP)目标,提升了模型的推理效率和训练成本效益。
  • 参数规模:拥有6710亿参数,其中激活参数为370亿。
  • 应用场景:在聊天和编码场景、多语言自动翻译、图像生成和AI绘画等多模态场景中表现出色。尤其在数学、代码和中文任务上,V3表现尤为突出,成为当前最强的开源模型。
  • 训练成本:整个训练过程仅耗费了278.8万H800 GPU小时,总成本约为557.6万美元,远低于其他前沿大模型。
  • API服务:调整了API服务价格,优惠期内(即日起至2025年2月8日)API价格为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。优惠期结束后,价格将恢复至每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。
DeepSeek-R1与DeepSeek-R1-Zero
  • 发布时间:DeepSeek-R1及DeepSeek-R1-Zero均在2025年1月20日左右发布并开源。
  • 核心技术:两者可能都在Transformer架构基础上针对推理做了优化,通过强化学习训练实现大量反思和验证。DeepSeek-R1-Zero几乎不依赖任何人类数据,完全依靠机器生成数据来进行强化学习训练。
  • 参数规模:两者参数均为660B。
  • 应用场景:在数学、代码以及各种复杂逻辑推理任务上应用出色,主要用于科学研究、复杂问题求解和逻辑分析。DeepSeek-R1-Zero可能在一些无人工标注数据相关场景更具优势。
DeepSeek-VL
  • 发布时间:DeepSeek-VL2系列于2024年12月发布。
  • 核心技术:整体上是decoder-only的LLaVA风格架构,包括视觉编码器、视觉语言适配器、专家混合语言模型三个核心模块。
  • 参数规模:DeepSeek-VL2系列有DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别具有10亿、28亿和45亿个激活参数。
  • 应用场景:用于VQA、OCR、文档/表格/图表理解和视觉定位等多模态理解任务

阿里的同义千问模型

Qwen2.5:这是通义千问系列中的一个重要版本。Qwen2.5全系列总计上架了100多个模型,涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型。其中,Qwen2.5-72B在多个核心任务的测评上,以不到1/5的参数超越了拥有4050亿巨量参数的Llama3.1-405B,性能强劲。

各模型API 输入输出与价格比较

ProviderModelMax Input (Tokens)Max Output (Tokens)Input Price (per mill tokens)Output Price (per mill tokens)
OpenAIGPT-48,1928,192$30$60
OpenAIGPT-4 Turbo128,0004,096$10$30
OpenAIGPT-3.5 Turbo4,0964,096$0.50$1.50
OpenAIGPT-4o128,0004,096$5$15
AnthropicClaude 2100,0004,000$11$32
AnthropicClaude 3 Opus200,0004,000$15$75
AnthropicClaude 3 Sonnet200,0004,000$3$15
AnthropicClaude 3 Haiku200,0004,000$0.25$1.25
GoogleGemini Pro32,7682,048$0.50$1.50
GoogleGemini Ultra32,7682,048$7$21
MetaLLaMA 2 (7B)4,0964,096Open SourceOpen Source
MetaLLaMA 2 (13B)4,0964,096Open SourceOpen Source
MetaLLaMA 2 (70B)4,0964,096Open SourceOpen Source
MistralMistral 7B8,1928,192Open SourceOpen Source
MistralMixtral 8x7B32,00032,000Open SourceOpen Source
深度求索DeepSeek-V3128,0004,096$0.14$0.28
阿里通义千问 - Turbo1,000,0000.0003¥0.0006¥

说明:

  1. Max Input:模型支持的最大输入 token 数量。
  2. Max Output:模型支持的最大输出 token 数量。
  3. Input Price:每百万输入 token 的价格(单位:美元)。
  4. Output Price:每百万输出 token 的价格(单位:美元)。
  5. Open Source:开源模型,无直接定价。

备注:

  • 价格和 token 限制可能因供应商更新而变化,建议参考官方文档获取最新信息。
  • 部分模型(如 LLaMA 2、Mistral)是开源的,价格不适用,但可能需要自行部署和计算资源成本。

性价比分析

  1. DeepSeek-V3: 无论是输入还是输出价格,DeepSeek-V3 都是最便宜的模型,性价比极高。

  2. Claude 3 Haiku: 输入和输出价格都非常低,性价比仅次于 DeepSeek-V3。

  3. GPT-3.5 Turbo: 输入和输出价格较低,适合预算有限的项目。

  4. Gemini Pro: 价格与 GPT-3.5 Turbo 相当,性价比不错。

  5. Claude 3 Sonnet: 输入价格较低,但输出价格较高,适合输入密集型任务。

  6. GPT-4o: 输入价格较低,输出价格中等,适合需要较高性能的任务。

  7. GPT-4 Turbo: 输入价格中等,输出价格较高,适合需要高性能的任务。

  8. Claude 2: 输入和输出价格较高,性价比一般。

  9. Claude 3 Opus: 输入和输出价格最高,适合需要顶级性能的任务。

  10. Gemini Ultra: 输入和输出价格较高,性价比一般。

  11. GPT-4: 输入和输出价格最高,适合需要顶级性能的任务。

总结

  • 最佳性价比: DeepSeek-V3

  • 次佳性价比: Claude 3 Haiku

  • 预算有限: GPT-3.5 Turbo 和 Gemini Pro

  • 高性能需求: GPT-4o 和 GPT-4 Turbo

  • 顶级性能: Claude 3 Opus 和 GPT-4

开源模型(如 LLaMA 2 和 Mistral)在价格上具有绝对优势,但需要自行部署和维护,适合有技术能力的团队。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oscar999

送以玫瑰,手留余香

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值