蛇年将至,AI大模型杀手级模型哪家强?
(一)DeepSeek-R1(深度求索)
(1)资源地址
体验地址: https://www.deepseek.com/
论文链接: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
模型地址: https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb
参考博客:
(2)主要特点
-
使用一种多阶段循环的训练方式:基础→ RL →微调→ RL →微调→ RL;
-
网页端、App 端和 API 端全面上线;
-
发布了两个参数为 660B 的 DeepSeek-R1-Zero 和 DeepSeek-R1;
-
蒸馏出六个小模型,参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B,这六个模型完全开源。
-
蒸馏后的 R1 32B 和 70B 版本远远超过了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B,并逼近 o1-mini。
-
DeepSeek-R1 API 服务的定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。
(二)豆包大模型 1.5系列(字节跳动)
(1)资源地址
体验地址: https://www.volcengine.com/
参考博客: 豆包发布大模型 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的方法干翻了 GPT-4o
(2)主要特点
-
发布四个版本:
Doubao-1.5-pro
:多项基准测试综合得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型,创历史最佳成绩Doubao-1.5-lite
:用轻量级成本实现旗舰级性能,综合性能持平或超越 GPT-4omini,Cluade 3.5 Haiku。Doubao-1.5-vision-pro
:定位专业视觉理解模型,在保持强大性能的同时,回复更简洁友好,多模态能力超越了 GPT-4o-0806。Doubao-1.5-realtime-voice-pro
:真正实现端到端语音对话,具备低时延、对话中可随时打断、自然的情绪表达等特性,即将开放 API 服务
-
Doubao-1.5-pro 采用稀疏 MoE 架构实现了多项技术突破:通过深入研究稀疏度 Scaling Law,将性能杠杆从业界普遍的 3 倍提升至 7 倍,用仅占稠密模型七分之一的参数量就超越了 Llama-3.1-405B 等大模型的性能。
-
在训练流程上,团队坚持完全自主的数据标注路线,通过算法驱动的数据优化系统和 Verifier 与 Reward Model 的深度融合,建立了统一的评价框架。
-
在 RL 阶段突破了价值函数训练难点,高难度任务性能提升超过 10 个百分点,并通过用户反馈闭环持续优化模型表现。这些创新使模型在保持高性能的同时大幅提升了效率。
-
Doubao-1.5-pro 在多模态能力上实现了全面升级,通过原生动态分辨率架构支持百万级分辨率和任意长宽比图像处理,实现了精准的特征提取。
-
豆包团队自研的支持动态分辨率的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。
-
在数据训练方面,模型采用了多样化的合成管线,结合搜索引擎的图文数据、渲染引擎和传统 CV 模型等多种方式生成高质量预训练数据。
-
通过在 VLM 训练阶段混入纯文本数据并动态调整学习率,模型实现了视觉和语言能力的平衡。
-
在语音领域,团队创新性地提出了 Speech2Speech 端到端框架,突破了传统 ASR+LLM+TTS 的级联模式,将语音和文本模态进行深度融合,显著提升了对话效果。
-
Doubao-1.5-pro 在语音和推理能力上取得重大突破:模型创新性地将语音和文本 Token 直接融合,摒弃了传统的语音文本对齐方法,为语音多模态数据的 Scaling 奠定基础。
-
在推理领域,通过大规模 RL 方法和 Test Time Scaling 的算力优化,团队研发出 Doubao 深度思考模式。
-
最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模型,通过持续的 RL 优化,模型的推理能力在多个领域展现出强大的泛化性。
(三)Kimi k1.5(月之暗面-多模态思考模型)
(1)资源地址
论文地址: https://github.com/MoonshotAI/kimi-k1.5
开源地址: https://github.com/MoonshotAI/kimi-k1.5
参考博客: Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生
(2)主要特点
-
发布历程
- 2024年11月发布 k0-math 数学模型
- 2024年12月发布 k1 视觉思考模型
- 2025年1月发布 Kimi k1.5
-
性能赶超OpenAI o1模型
-
在Long CoT模式下,Kimi k1.5的数学、代码、多模态推理能力,达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内,首次有OpenAI之外的公司达到;在Short CoT模式下,Kimi k1.5大幅领先GPT-4o 和Claude 3.5的水平。
-
设计的关键要素: 1. 长上下文扩展 2. 改进的策略优化 3. 简化框架 4. 多模态
(四)子曰-o1(网易有道)
(1)资源地址
体验地址: https://confucius-o1-demo.youdao.com/
模型地址:
参考博客: 网易有道子曰开源国内首个输出分步式讲解的推理模型“子曰-o1”!消费级显卡即可部署
(2)主要特点
-
国内首个输出分步式讲解的推理模型
-
作为14B轻量级单模型,子曰-o1支持在消费级显卡上进行部署,采用思维链技术,能够提供细致解题过程,以强逻辑和推理能力,实现更高的解题准确性,并提供中文逻辑推理。
-
子曰-o1开源模型选择了较小参数规模的基础模型,能够进行单卡部署并具备更强的数学能力。在此基础上,子曰-o1开源模型进一步实现了轻量化,能够在消费级显卡上运行,提供与云端部署质量相媲美的模型质量。
-
在规模“压缩”的同时,子曰-o1采用思维链技术,打造了国内首个输出分步式讲题的思维链模型,以14B小参数规模可复现OpenAI o1的单模型推理能力。
(五)Agent GLM-PC(智谱华章)
(1)资源地址
体验地址: https://cogagent.aminer.cn/home
参考博客: 智谱AI深夜上线全新Agent GLM-PC,再见仍是巅峰。
(2)主要特点
-
发布历程
- 2024年10月25日,智谱在CNCC发布了第一款手机自主人工智能,AutoGLM,直接在行业内和金融市场上掀起了风暴。
- 2024年11月29日,智谱在Agent OpenDay上,宣布升级版的AutoGLM,还有电脑版本的自主人工智能,GLM-PC 1.0内测版。
-
复杂任务拆解能力大幅强化,任务成功率比1.0高太多太多了,操作速度直逼人类,每步操作几乎都在1.5s以内。
(六)Trae(字节跳动AI-IDE-对标Cursor)
(1)资源地址
体验地址: https://www.trae.ai/
参考博客: 一人能顶一个公司:字节AI编程神器Trae诞生了!
(2)主要特点
-
Trae 是一款面向开发者的 AI 驱动的集成开发环境(IDE)。它通过智能代码补全、多模态交互以及对整个代码库的上下文分析等功能,帮助开发者更高效地编写代码。Trae 的主要优点在于其强大的 AI 能力,能够理解开发者的需求并提供精准的代码生成和修改建议。该产品目前提供免费版本,旨在帮助开发者减少重复性任务,专注于创造性工作,从而提升编程效率和生产力。
-
内置了 Claude-3.5-Sonnet免费用
-
需求人群
“Trae 主要面向希望提高编程效率、减少重复性任务的开发者,无论是初学者还是经验丰富的开发人员,都可以通过 Trae 的智能辅助功能提升编码速度和质量。此外,对于需要快速构建项目的团队,Trae 的聊天构建模式也能提供显著帮助。”
-
使用场景示例
Emily
:表示 Trae 是她不可或缺的工具,极大地提升了她的编程效率。Choi
:认为 Trae 是革命性的工具,能够无缝整合到开发流程中,显著提高编程效率。nlsun
:即使没有编程经验,也能通过 Trae 快速创建完整的游戏项目。 -
产品特色
智能代码补全
:实时预测开发者意图并自动完成代码。多模态交互
:支持上传图片以澄清需求,提升协作效率。上下文分析
:全面分析代码库,提供精准代码生成和修改建议。聊天构建项目
:通过聊天模式快速分解和执行任务,优化开发流程。实时工作流理解
:结合编辑器和终端信息,理解开发者的具体需求。适应多种编程语言和框架
:支持多种开发场景,提升开发灵活性。社区支持
:通过 Discord 等渠道提供开发者社区支持。 -
使用教程
-
访问 Trae 官方网站并下载适用于 macOS 或 Windows 的桌面客户端。
-
安装完成后,启动 Trae 并根据提示进行初始设置。
-
打开一个现有项目或创建新项目,Trae 会自动分析代码库。
-
在编辑器中编写代码时,Trae 会实时提供智能代码补全建议。
-
使用聊天模式(Builder)通过自然语言描述需求,Trae 会自动分解任务并生成代码。
-
需要上传图片以澄清需求时,利用多模态功能上传并获取更精准的反馈。
-
利用 Trae 的上下文分析功能,获取针对当前项目的定制化代码建议。
-
通过 Trae 的社区和文档获取更多支持和使用技巧。
-
(七)T2A-01系列(MiniMax-语音模型)
(1)资源地址
体验地址:
-
Hailuo Audio(海外版):https://hailuo.ai/audio
-
海外API服务:https://intl.minimaxi.com/document/T2A%20V2?key=66719005a427f0c8a5701643
参考博客: MiniMax海螺语音全球同步上线,文生音能力赶超ElevenLabs
(2)主要特点
- 与传统语音生成技术相比,全新升级的T2A-01系列语音模型不仅具有音质稳定清晰、韵律自然、情绪精准表达、高准确度等特点,提供更快、更稳的语音生成能力,还能支持包括中文、粤语、英语、日语、韩语、阿拉伯语、西班牙语在内的17种语言及上百种预置音色可选,为企业与个人用户提供自然流畅的语音生成体验。
- 海螺语音支持中文、粤语、英语、日语、韩语、阿拉伯语、葡萄牙语、西班牙语、法语、意大利语、印尼语、荷兰语、俄语、德语、越南语、土耳其语、乌克兰语等17种语言生成,能够提供真正地道的语言输出。在T2A-01模型的能力支持下,海螺语音在相似度、错误率和听感评测上均领先于同类产品。
- 海螺语音预置不同语种共计300+音色供用户选择,用户可按语言、口音、性别和年龄分类筛选。音色多变,不羁、诙谐、慈祥等风格丰富多样,有声书、ASMR耳语、新闻播报等场景均可适用。
- T2A-01系列包含T2A-01-HD,T2A-01-Turbo两款模型供用户使用,API服务已同步上线MiniMax开放平台,企业可以根据音频质量与生成速度的需求重点来选择。在海外内测期间,凭借超一流、超预期的多语种语音生成能力,海螺语音迅速收获一众海外AI工作室、创作者好评。