【AIGC2025】蛇年将至,AI大模型杀手级模型哪家强?

(一)DeepSeek-R1(深度求索)

(1)资源地址

体验地址: https://www.deepseek.com/

论文链接: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

模型地址: https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb

参考博客:

(2)主要特点
  • 使用一种多阶段循环的训练方式:基础→ RL →微调→ RL →微调→ RL;

  • 网页端、App 端和 API 端全面上线;

  • 发布了两个参数为 660B 的 DeepSeek-R1-Zero 和 DeepSeek-R1;

  • 蒸馏出六个小模型,参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B,这六个模型完全开源。

  • 蒸馏后的 R1 32B 和 70B 版本远远超过了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B,并逼近 o1-mini。

    在这里插入图片描述

  • DeepSeek-R1 API 服务的定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。

在这里插入图片描述

(二)豆包大模型 1.5系列(字节跳动)

(1)资源地址

体验地址: https://www.volcengine.com/

参考博客: 豆包发布大模型 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的方法干翻了 GPT-4o

(2)主要特点
  • 发布四个版本:

    • Doubao-1.5-pro:多项基准测试综合得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型,创历史最佳成绩
    • Doubao-1.5-lite:用轻量级成本实现旗舰级性能,综合性能持平或超越 GPT-4omini,Cluade 3.5 Haiku。
    • Doubao-1.5-vision-pro:定位专业视觉理解模型,在保持强大性能的同时,回复更简洁友好,多模态能力超越了 GPT-4o-0806。
    • Doubao-1.5-realtime-voice-pro:真正实现端到端语音对话,具备低时延、对话中可随时打断、自然的情绪表达等特性,即将开放 API 服务
  • Doubao-1.5-pro 采用稀疏 MoE 架构实现了多项技术突破:通过深入研究稀疏度 Scaling Law,将性能杠杆从业界普遍的 3 倍提升至 7 倍,用仅占稠密模型七分之一的参数量就超越了 Llama-3.1-405B 等大模型的性能。

    在这里插入图片描述

  • 在训练流程上,团队坚持完全自主的数据标注路线,通过算法驱动的数据优化系统和 Verifier 与 Reward Model 的深度融合,建立了统一的评价框架。

  • 在 RL 阶段突破了价值函数训练难点,高难度任务性能提升超过 10 个百分点,并通过用户反馈闭环持续优化模型表现。这些创新使模型在保持高性能的同时大幅提升了效率。

  • Doubao-1.5-pro 在多模态能力上实现了全面升级,通过原生动态分辨率架构支持百万级分辨率和任意长宽比图像处理,实现了精准的特征提取。

    在这里插入图片描述

  • 豆包团队自研的支持动态分辨率的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。

  • 在数据训练方面,模型采用了多样化的合成管线,结合搜索引擎的图文数据、渲染引擎和传统 CV 模型等多种方式生成高质量预训练数据。

  • 通过在 VLM 训练阶段混入纯文本数据并动态调整学习率,模型实现了视觉和语言能力的平衡。

  • 在语音领域,团队创新性地提出了 Speech2Speech 端到端框架,突破了传统 ASR+LLM+TTS 的级联模式,将语音和文本模态进行深度融合,显著提升了对话效果。

  • Doubao-1.5-pro 在语音和推理能力上取得重大突破:模型创新性地将语音和文本 Token 直接融合,摒弃了传统的语音文本对齐方法,为语音多模态数据的 Scaling 奠定基础。

  • 在推理领域,通过大规模 RL 方法和 Test Time Scaling 的算力优化,团队研发出 Doubao 深度思考模式。

  • 最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模型,通过持续的 RL 优化,模型的推理能力在多个领域展现出强大的泛化性。

(三)Kimi k1.5(月之暗面-多模态思考模型)

(1)资源地址

论文地址: https://github.com/MoonshotAI/kimi-k1.5

开源地址: https://github.com/MoonshotAI/kimi-k1.5

参考博客: Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

(2)主要特点
  • 发布历程

    • 2024年11月发布 k0-math 数学模型
    • 2024年12月发布 k1 视觉思考模型
    • 2025年1月发布 Kimi k1.5

    在这里插入图片描述

  • 性能赶超OpenAI o1模型

    在这里插入图片描述

  • 在Long CoT模式下,Kimi k1.5的数学、代码、多模态推理能力,达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内,首次有OpenAI之外的公司达到;在Short CoT模式下,Kimi k1.5大幅领先GPT-4o 和Claude 3.5的水平。

    在这里插入图片描述

  • 设计的关键要素: 1. 长上下文扩展 2. 改进的策略优化 3. 简化框架 4. 多模态

(四)子曰-o1(网易有道)

(1)资源地址

体验地址: https://confucius-o1-demo.youdao.com/

模型地址:

参考博客: 网易有道子曰开源国内首个输出分步式讲解的推理模型“子曰-o1”!消费级显卡即可部署

(2)主要特点
  • 国内首个输出分步式讲解的推理模型

  • 作为14B轻量级单模型,子曰-o1支持在消费级显卡上进行部署,采用思维链技术,能够提供细致解题过程,以强逻辑和推理能力,实现更高的解题准确性,并提供中文逻辑推理。

  • 子曰-o1开源模型选择了较小参数规模的基础模型,能够进行单卡部署并具备更强的数学能力。在此基础上,子曰-o1开源模型进一步实现了轻量化,能够在消费级显卡上运行,提供与云端部署质量相媲美的模型质量。

    在这里插入图片描述

  • 在规模“压缩”的同时,子曰-o1采用思维链技术,打造了国内首个输出分步式讲题的思维链模型,以14B小参数规模可复现OpenAI o1的单模型推理能力。

(五)Agent GLM-PC(智谱华章)

(1)资源地址

体验地址: https://cogagent.aminer.cn/home

参考博客: 智谱AI深夜上线全新Agent GLM-PC,再见仍是巅峰。

(2)主要特点
  • 发布历程

    • 2024年10月25日,智谱在CNCC发布了第一款手机自主人工智能,AutoGLM,直接在行业内和金融市场上掀起了风暴。
    • 2024年11月29日,智谱在Agent OpenDay上,宣布升级版的AutoGLM,还有电脑版本的自主人工智能,GLM-PC 1.0内测版。
  • 复杂任务拆解能力大幅强化,任务成功率比1.0高太多太多了,操作速度直逼人类,每步操作几乎都在1.5s以内。

(六)Trae(字节跳动AI-IDE-对标Cursor)

(1)资源地址

体验地址: https://www.trae.ai/

参考博客: 一人能顶一个公司:字节AI编程神器Trae诞生了!

(2)主要特点
  • Trae 是一款面向开发者的 AI 驱动的集成开发环境(IDE)。它通过智能代码补全、多模态交互以及对整个代码库的上下文分析等功能,帮助开发者更高效地编写代码。Trae 的主要优点在于其强大的 AI 能力,能够理解开发者的需求并提供精准的代码生成和修改建议。该产品目前提供免费版本,旨在帮助开发者减少重复性任务,专注于创造性工作,从而提升编程效率和生产力。

  • 内置了 Claude-3.5-Sonnet免费用

  • 需求人群

    “Trae 主要面向希望提高编程效率、减少重复性任务的开发者,无论是初学者还是经验丰富的开发人员,都可以通过 Trae 的智能辅助功能提升编码速度和质量。此外,对于需要快速构建项目的团队,Trae 的聊天构建模式也能提供显著帮助。”

  • 使用场景示例

    Emily:表示 Trae 是她不可或缺的工具,极大地提升了她的编程效率。

    Choi:认为 Trae 是革命性的工具,能够无缝整合到开发流程中,显著提高编程效率。

    nlsun:即使没有编程经验,也能通过 Trae 快速创建完整的游戏项目。

  • 产品特色

    智能代码补全:实时预测开发者意图并自动完成代码。

    多模态交互:支持上传图片以澄清需求,提升协作效率。

    上下文分析:全面分析代码库,提供精准代码生成和修改建议。

    聊天构建项目:通过聊天模式快速分解和执行任务,优化开发流程。

    实时工作流理解:结合编辑器和终端信息,理解开发者的具体需求。

    适应多种编程语言和框架:支持多种开发场景,提升开发灵活性。

    社区支持:通过 Discord 等渠道提供开发者社区支持。

  • 使用教程

    1. 访问 Trae 官方网站并下载适用于 macOS 或 Windows 的桌面客户端。

    2. 安装完成后,启动 Trae 并根据提示进行初始设置。

    3. 打开一个现有项目或创建新项目,Trae 会自动分析代码库。

    4. 在编辑器中编写代码时,Trae 会实时提供智能代码补全建议。

    5. 使用聊天模式(Builder)通过自然语言描述需求,Trae 会自动分解任务并生成代码。

    6. 需要上传图片以澄清需求时,利用多模态功能上传并获取更精准的反馈。

    7. 利用 Trae 的上下文分析功能,获取针对当前项目的定制化代码建议。

    8. 通过 Trae 的社区和文档获取更多支持和使用技巧。

(七)T2A-01系列(MiniMax-语音模型)

(1)资源地址

体验地址:

参考博客: MiniMax海螺语音全球同步上线,文生音能力赶超ElevenLabs

(2)主要特点
  • 与传统语音生成技术相比,全新升级的T2A-01系列语音模型不仅具有音质稳定清晰、韵律自然、情绪精准表达、高准确度等特点,提供更快、更稳的语音生成能力,还能支持包括中文、粤语、英语、日语、韩语、阿拉伯语、西班牙语在内的17种语言上百种预置音色可选,为企业与个人用户提供自然流畅的语音生成体验。
  • 海螺语音支持中文、粤语、英语、日语、韩语、阿拉伯语、葡萄牙语、西班牙语、法语、意大利语、印尼语、荷兰语、俄语、德语、越南语、土耳其语、乌克兰语等17种语言生成,能够提供真正地道的语言输出。在T2A-01模型的能力支持下,海螺语音在相似度、错误率和听感评测上均领先于同类产品。
  • 海螺语音预置不同语种共计300+音色供用户选择,用户可按语言、口音、性别和年龄分类筛选。音色多变,不羁、诙谐、慈祥等风格丰富多样,有声书、ASMR耳语、新闻播报等场景均可适用。
  • T2A-01系列包含T2A-01-HD,T2A-01-Turbo两款模型供用户使用,API服务已同步上线MiniMax开放平台,企业可以根据音频质量与生成速度的需求重点来选择。在海外内测期间,凭借超一流、超预期的多语种语音生成能力,海螺语音迅速收获一众海外AI工作室、创作者好评。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值