【AIGC2025】蛇年将至，AI大模型杀手级模型哪家强？

LeeZhao@

已于 2025-01-24 13:39:07 修改

阅读量1.2k

点赞数 17

分类专栏： AI项目库文章标签：人工智能 AIGC

于 2025-01-24 00:58:24 首次发布

本文链接：https://blog.csdn.net/qq_36722887/article/details/145331677

版权

AI项目库专栏收录该内容

11 篇文章

订阅专栏

（一）DeepSeek-R1（深度求索）

（1）资源地址

体验地址： https://www.deepseek.com/

论文链接： https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

模型地址： https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb

参考博客：

（2）主要特点

使用一种多阶段循环的训练方式：基础→ RL →微调→ RL →微调→ RL；
网页端、App 端和 API 端全面上线；
发布了两个参数为 660B 的 DeepSeek-R1-Zero 和 DeepSeek-R1；
蒸馏出六个小模型，参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B，这六个模型完全开源。
蒸馏后的 R1 32B 和 70B 版本远远超过了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B，并逼近 o1-mini。
DeepSeek-R1 API 服务的定价为每百万输入 tokens 1 元（缓存命中）/ 4 元（缓存未命中），每百万输出 tokens 16 元。

在这里插入图片描述

（二）豆包大模型 1.5系列（字节跳动）

（1）资源地址

体验地址： https://www.volcengine.com/

参考博客： 豆包发布大模型 1.5 Pro ，实测后我发现这个国产 AI 用最「笨」的方法干翻了 GPT-4o

（2）主要特点

发布四个版本：
- Doubao-1.5-pro：多项基准测试综合得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型，创历史最佳成绩
- Doubao-1.5-lite：用轻量级成本实现旗舰级性能，综合性能持平或超越 GPT-4omini，Cluade 3.5 Haiku。
- Doubao-1.5-vision-pro：定位专业视觉理解模型，在保持强大性能的同时，回复更简洁友好，多模态能力超越了 GPT-4o-0806。
- Doubao-1.5-realtime-voice-pro：真正实现端到端语音对话，具备低时延、对话中可随时打断、自然的情绪表达等特性，即将开放 API 服务
Doubao-1.5-pro 采用稀疏 MoE 架构实现了多项技术突破：通过深入研究稀疏度 Scaling Law，将性能杠杆从业界普遍的 3 倍提升至 7 倍，用仅占稠密模型七分之一的参数量就超越了 Llama-3.1-405B 等大模型的性能。
在训练流程上，团队坚持完全自主的数据标注路线，通过算法驱动的数据优化系统和 Verifier 与 Reward Model 的深度融合，建立了统一的评价框架。
在 RL 阶段突破了价值函数训练难点，高难度任务性能提升超过 10 个百分点，并通过用户反馈闭环持续优化模型表现。这些创新使模型在保持高性能的同时大幅提升了效率。
Doubao-1.5-pro 在多模态能力上实现了全面升级，通过原生动态分辨率架构支持百万级分辨率和任意长宽比图像处理，实现了精准的特征提取。
豆包团队自研的支持动态分辨率的 Doubao ViT 在多种视觉分类任务中表现优异，仅凭 2.4B 规模便在综合评分上取得 SOTA 表现，效果超越 7 倍于自身规模的模型。
在数据训练方面，模型采用了多样化的合成管线，结合搜索引擎的图文数据、渲染引擎和传统 CV 模型等多种方式生成高质量预训练数据。
通过在 VLM 训练阶段混入纯文本数据并动态调整学习率，模型实现了视觉和语言能力的平衡。
在语音领域，团队创新性地提出了 Speech2Speech 端到端框架，突破了传统 ASR+LLM+TTS 的级联模式，将语音和文本模态进行深度融合，显著提升了对话效果。
Doubao-1.5-pro 在语音和推理能力上取得重大突破：模型创新性地将语音和文本 Token 直接融合，摒弃了传统的语音文本对齐方法，为语音多模态数据的 Scaling 奠定基础。
在推理领域，通过大规模 RL 方法和 Test Time Scaling 的算力优化，团队研发出 Doubao 深度思考模式。
最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模型，通过持续的 RL 优化，模型的推理能力在多个领域展现出强大的泛化性。

（三）Kimi k1.5（月之暗面-多模态思考模型）

（1）资源地址

论文地址： https://github.com/MoonshotAI/kimi-k1.5

开源地址： https://github.com/MoonshotAI/kimi-k1.5

参考博客： Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

（2）主要特点

发布历程
- 2024年11月发布 k0-math 数学模型
- 2024年12月发布 k1 视觉思考模型
- 2025年1月发布 Kimi k1.5
性能赶超OpenAI o1模型
在Long CoT模式下，Kimi k1.5的数学、代码、多模态推理能力，达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内，首次有OpenAI之外的公司达到；在Short CoT模式下，Kimi k1.5大幅领先GPT-4o 和Claude 3.5的水平。
设计的关键要素： 1. 长上下文扩展 2. 改进的策略优化 3. 简化框架 4. 多模态

（四）子曰-o1（网易有道）

（1）资源地址

体验地址： https://confucius-o1-demo.youdao.com/

模型地址：

参考博客： 网易有道子曰开源国内首个输出分步式讲解的推理模型“子曰-o1”！消费级显卡即可部署

（2）主要特点

国内首个输出分步式讲解的推理模型
作为14B轻量级单模型，子曰-o1支持在消费级显卡上进行部署，采用思维链技术，能够提供细致解题过程，以强逻辑和推理能力，实现更高的解题准确性，并提供中文逻辑推理。
子曰-o1开源模型选择了较小参数规模的基础模型，能够进行单卡部署并具备更强的数学能力。在此基础上，子曰-o1开源模型进一步实现了轻量化，能够在消费级显卡上运行，提供与云端部署质量相媲美的模型质量。
在规模“压缩”的同时，子曰-o1采用思维链技术，打造了国内首个输出分步式讲题的思维链模型，以14B小参数规模可复现OpenAI o1的单模型推理能力。

（五）Agent GLM-PC（智谱华章）

（1）资源地址

体验地址： https://cogagent.aminer.cn/home

参考博客： 智谱AI深夜上线全新Agent GLM-PC，再见仍是巅峰。

（2）主要特点

发布历程
- 2024年10月25日，智谱在CNCC发布了第一款手机自主人工智能，AutoGLM，直接在行业内和金融市场上掀起了风暴。
- 2024年11月29日，智谱在Agent OpenDay上，宣布升级版的AutoGLM，还有电脑版本的自主人工智能，GLM-PC 1.0内测版。
复杂任务拆解能力大幅强化，任务成功率比1.0高太多太多了，操作速度直逼人类，每步操作几乎都在1.5s以内。

（六）Trae（字节跳动AI-IDE-对标Cursor）

（1）资源地址

体验地址： https://www.trae.ai/

参考博客： 一人能顶一个公司：字节AI编程神器Trae诞生了！

（2）主要特点

Trae 是一款面向开发者的 AI 驱动的集成开发环境（IDE）。它通过智能代码补全、多模态交互以及对整个代码库的上下文分析等功能，帮助开发者更高效地编写代码。Trae 的主要优点在于其强大的 AI 能力，能够理解开发者的需求并提供精准的代码生成和修改建议。该产品目前提供免费版本，旨在帮助开发者减少重复性任务，专注于创造性工作，从而提升编程效率和生产力。
内置了 Claude-3.5-Sonnet免费用
需求人群

“Trae 主要面向希望提高编程效率、减少重复性任务的开发者，无论是初学者还是经验丰富的开发人员，都可以通过 Trae 的智能辅助功能提升编码速度和质量。此外，对于需要快速构建项目的团队，Trae 的聊天构建模式也能提供显著帮助。”
使用场景示例

Emily：表示 Trae 是她不可或缺的工具，极大地提升了她的编程效率。

Choi：认为 Trae 是革命性的工具，能够无缝整合到开发流程中，显著提高编程效率。

nlsun：即使没有编程经验，也能通过 Trae 快速创建完整的游戏项目。
产品特色

智能代码补全：实时预测开发者意图并自动完成代码。

多模态交互：支持上传图片以澄清需求，提升协作效率。

上下文分析：全面分析代码库，提供精准代码生成和修改建议。

聊天构建项目：通过聊天模式快速分解和执行任务，优化开发流程。

实时工作流理解：结合编辑器和终端信息，理解开发者的具体需求。

适应多种编程语言和框架：支持多种开发场景，提升开发灵活性。

社区支持：通过 Discord 等渠道提供开发者社区支持。
使用教程
1. 访问 Trae 官方网站并下载适用于 macOS 或 Windows 的桌面客户端。
2. 安装完成后，启动 Trae 并根据提示进行初始设置。
3. 打开一个现有项目或创建新项目，Trae 会自动分析代码库。
4. 在编辑器中编写代码时，Trae 会实时提供智能代码补全建议。
5. 使用聊天模式（Builder）通过自然语言描述需求，Trae 会自动分解任务并生成代码。
6. 需要上传图片以澄清需求时，利用多模态功能上传并获取更精准的反馈。
7. 利用 Trae 的上下文分析功能，获取针对当前项目的定制化代码建议。
8. 通过 Trae 的社区和文档获取更多支持和使用技巧。

（七）T2A-01系列（MiniMax-语音模型）

（1）资源地址

体验地址：

海螺语音：https://hailuoai.com/audio
Hailuo Audio（海外版）：https://hailuo.ai/audio
国内API服务：https://platform.minimaxi.com/document/T2A%20V2
海外API服务：https://intl.minimaxi.com/document/T2A%20V2?key=66719005a427f0c8a5701643

参考博客： MiniMax海螺语音全球同步上线，文生音能力赶超ElevenLabs

（2）主要特点

与传统语音生成技术相比，全新升级的T2A-01系列语音模型不仅具有音质稳定清晰、韵律自然、情绪精准表达、高准确度等特点，提供更快、更稳的语音生成能力，还能支持包括中文、粤语、英语、日语、韩语、阿拉伯语、西班牙语在内的17种语言及上百种预置音色可选，为企业与个人用户提供自然流畅的语音生成体验。
海螺语音支持中文、粤语、英语、日语、韩语、阿拉伯语、葡萄牙语、西班牙语、法语、意大利语、印尼语、荷兰语、俄语、德语、越南语、土耳其语、乌克兰语等17种语言生成，能够提供真正地道的语言输出。在T2A-01模型的能力支持下，海螺语音在相似度、错误率和听感评测上均领先于同类产品。
海螺语音预置不同语种共计300+音色供用户选择，用户可按语言、口音、性别和年龄分类筛选。音色多变，不羁、诙谐、慈祥等风格丰富多样，有声书、ASMR耳语、新闻播报等场景均可适用。
T2A-01系列包含T2A-01-HD，T2A-01-Turbo两款模型供用户使用，API服务已同步上线MiniMax开放平台，企业可以根据音频质量与生成速度的需求重点来选择。在海外内测期间，凭借超一流、超预期的多语种语音生成能力，海螺语音迅速收获一众海外AI工作室、创作者好评。