一、模型性能升级亮点
1.推理与逻辑能力突破
- 数学、编程及通用逻辑测评成绩位居国内首位,整体表现接近国际顶尖模型(如 o3 与 Gemini-2.5-Pro)。
- 复杂推理任务表现显著提升,以 AIME 2025 测试为例,准确率从旧版 70% 提升至 87.5%。
- 支持长时间深度思考,单题平均 token 消耗量增加近一倍(从 12K 提升至 23K),体现更详尽的分析能力。
2.“幻觉”问题优化
- 在摘要总结、文本改写等场景中,幻觉率降低 45%-50%,输出结果更精准可靠。
- 长文本生成能力增强,支持创作结构完整、风格更贴近人类的长篇作品(如小说、议论文)。
3.代码与写作能力提升
- 代码生成质量提高,格式规范性增强。
- 写作表现更具“人味”,逻辑性与条理性优化。
二、多平台快速接入与免费开放
1.腾讯生态产品
- 腾讯元宝(电脑/网页版优先)、ima、搜狗输入法(Windows 侧边栏)及 QQ 浏览器已支持通过“深度思考”模式免费使用新版 R1。
- 腾讯强调采用双模型驱动策略,未来将持续引入先进模型并快速部署。
2.百度智能云与文小言
- 百度智能云千帆平台上线 R1-0528,提供批量推理、模型评估、日志分析等工具链,助力企业定制专属大模型。
- 文小言 App 同步接入,支持 AI 问答、创作及拍照解题功能,解题过程可展示详细思维链。
3.其他接入渠道
- 用户可通过官方网站、独立 App 或小程序开启“深度思考”体验新模型。
三、技术亮点与行业影响
1.开源与部署效率
- 腾讯产品从模型开源到上线仅耗时不到 24 小时,体现技术团队的高效协同能力。
2.学术与工业价值
- R1-0528 的思维链设计为小模型开发与推理研究提供重要参考。百度千帆平台的全流程工具链则降低企业应用门槛。
3.国际竞争力提升
- 模型在关键指标上接近国际顶尖水平,国产大模型技术差距进一步缩小。