DeepSeek梁文锋登顶百大！GPT-4.1/o3发布，Gemini 2.5 Flash出击，Grok重磅升级！| AI Weekly 4.14-4.20

本文链接：https://blog.csdn.net/weixin_40774379/article/details/147355956

精彩，多么精彩的一周！

📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🌍 DeepSeek CEO 梁文锋登《时代》百大人物 ：凭 R1 模型冲击全球 AI 主导权，打破硅谷垄断。

2️⃣ 🧠 豆包 1.5 模型发布 ：视觉推理 + “边想边搜”，支持医疗影像和设计场景，日用 tokens 破 12.7 万亿。

3️⃣ 🎨 字节 Seedream 3.0 上线 ：文生图速度仅 3 秒，图文排版媲美 GPT-4o，追平 SOTA 性能。

4️⃣ 🏃 “天工 Ultra”勇夺机器人半马冠军 ：历时 2 小时 40 分，人形机器人首次跑完全程。

5️⃣ 💬 微信首个 AI 助手“元宝”上线 ：可解析公众号、聊天互动，支持图片识别和文档解读。

6️⃣ ⚙️ OpenAI 发布 GPT-4.1 系列模型 ：上下文突破百万 tokens，代码生成提速 40%，成本降 80%。

7️⃣ 👁️ OpenAI 推出 o3 与 o4-mini 模型 ：支持“看图思考”，自动图像旋转 / 缩放推理。

8️⃣ 🧠 ChatGPT 上线“记忆搜索”功能 ：结合用户习惯调整搜索结果，打造数字伴侣体验。

9️⃣ 🖥️ Codex CLI 正式开源 ：命令行 AI 编程助手上线，支持三种运行模式与本地代码联动。

🔟 💰 OpenAI 拟 30 亿美元收购 Windsurf ：挑战 Cursor、Copilot，押注 AI 编程工具市场。

1️⃣1️⃣ 🔄 谷歌发布 Gemini 2.5 Flash 模型 ：引入“思考预算”，可控推理成本低至 0.6 美元 / 百万 tokens。

1️⃣2️⃣ 🎓 Google One AI Premium 免费送学生 ：美国高校用户限时领 15 个月会员 + 2TB 云存储。

1️⃣3️⃣ 📱 Gemini Live 免费向安卓用户开放 ：摄像头 / 屏幕内容实时识别，解锁多模态交互。

1️⃣4️⃣ 🧠 Grok 上线“记忆”功能 ：可记住用户偏好，支持私密聊天、历史管理。

1️⃣5️⃣ 📁 Grok Workspace 正式开放 ：对话、文件、指令集中管理，适用于多项目协作。

1️⃣6️⃣ 🛠️ xAI 推出 Grok Studio ：支持代码、文档、网页协作编辑，可预览与云同步。

1️⃣7️⃣ 🔍 Claude 推出 Research 功能 ：多轮 AI 搜索 + Google Workspace 集成，办公效率再提速。

1️⃣8️⃣ 🏆 Perplexity Sonar 登顶搜索榜 ：53% 胜率击败 Gemini，推理能力与引用质量领先。

1. DeepSeek 梁文锋入选《时代》2025 百大人物

4 月 16 日，《时代》周刊公布了“2025 年全球最具影响力 100 人”名单，DeepSeek 创始人兼 CEO 梁文锋荣登榜单，并被列入“Pioneers（拓荒者）”类别，成为中国 AI 领域的代表人物之一。《时代》评价称，DeepSeek 在资源受限的情况下，构建出性能媲美 ChatGPT 的生成式 AI 模型，打破了硅谷对先进 AI 的垄断地位。

DeepSeek 于 2025 年 1 月发布的 R1 模型，仅使用 2048 张英伟达 H800 GPU，训练成本约为 560 万美元，却实现了与西方数十亿美元项目相当的性能。该模型迅速登顶美国 iOS 应用商店免费榜首，导致英伟达股价单日蒸发 6000 亿美元，创下美股历史最大跌幅。这一事件被媒体称为美国 AI 的“史普尼克时刻”，引发全球对 AI 技术主导权的重新审视。

梁文锋出生于广东吴川，毕业于浙江大学，早年在量化投资领域取得显著成就。2023 年创立 DeepSeek，致力于构建高效、开源的大语言模型。

2. 字节跳动发布豆包 1.5 深度思考模型

4 月 17 日，字节跳动旗下火山引擎在杭州 AI 创新巡展上正式发布了 豆包 1.5·深度思考模型，在多模态理解和推理能力方面实现重大突破，标志着 AI 助手从“读文字”向“看图思考”迈进。

该模型采用混合专家（MoE）架构，总参数达 200B，激活参数仅为 20B，推理成本显著降低。在数学、编程、科学推理等专业领域，以及创意写作等通用任务中表现出色。特别值得关注的是，其视觉理解能力大幅提升，能够分析图像内容并基于图像信息生成描述或回答问题。例如，用户上传照片后，模型可识别图像中的内容，甚至提供相关信息。

此外，豆包 1.5 还支持“边想边搜”功能，在进行复杂推理的同时执行搜索任务，提供动态、实时的信息检索体验。在医疗、设计、旅游等多个场景中，豆包 1.5 展现出强大的应用潜力。例如，在医疗诊断中，模型可协助分析医学影像并生成诊断报告；在设计领域，能够审视作品并提供专业的优化建议。

截至 2025 年 3 月，豆包大模型日均 tokens 使用量已超过 12.7 万亿。

3. 字节跳动发布文生图模型 Seedream 3.0

4 月 16 日，字节跳动旗下豆包大模型团队正式发布全新一代文本生成图像模型 Seedream 3.0，在图像质量、生成速度和文本渲染等多个维度实现突破，综合性能追平 GPT-4o，并在权威榜单 Artificial Analysis 中跻身全球第一梯队。

Seedream 3.0 支持原生 2K 分辨率图像输出，无需后处理即可满足从移动端到大型海报等多场景需求。生成速度显著提升，1K 分辨率图像平均生成时间约为 3 秒，远超同类模型的 10 秒平均水平，甚至比 GPT-4o 的 77 秒耗时快了数十倍。此外，模型在小字体高保真生成、多行文本排版等方面取得突破，具备商业级图文设计能力，满足海报、广告等视觉内容制作需求。

目前，Seedream 3.0 已在豆包、即梦等平台全量上线，用户可直接体验其强大的图像生成能力。技术报告已发布于 arXiv，详细介绍了模型的架构设计和性能评估。

4. “天工 Ultra”夺冠人形机器人半程马拉松

4 月 19 日，北京亦庄迎来了全球首场人形机器人半程马拉松赛事，21 支机器人队伍与 1.2 万名人类选手同场竞技。最终，由北京人形机器人创新中心研发的“天工 Ultra”以 2 小时 40 分 42 秒的成绩完成 21.0975 公里赛程，夺得冠军，成为首个完成半马并夺冠的人形机器人。

“天工 Ultra”身高 1.8 米，体重 55 公斤，搭载“慧思开物”具身智能平台，具备“一脑多能”“一脑多机”的通用智能能力。其最高奔跑速度可达 12 公里/小时，平均配速为 7–8 公里/小时。研发团队在本体稳定性、轻量化设计、关节散热与能耗控制等方面进行了深度优化，并通过运动控制算法提升了步态协调性和复杂地形适应能力。比赛过程中，“天工 Ultra”仅更换三次电池，展现出卓越的续航与稳定性。

本次比赛采用“人机共跑”模式，机器人与人类选手共享赛道但分属不同赛区。赛道涵盖柏油路、石板路、草地等多种复杂地形，对机器人的步态控制与环境适应能力提出了严峻挑战。除“天工 Ultra”外，松延动力的 N2 机器人和来自上海的“行者二号”分别获得亚军和季军。

5. 微信上线首个 AI 助手“元宝”

4 月 16 日，微信正式上线其首个 AI 助手“元宝”。用户可在微信中搜索“元宝”并添加为好友，直接在聊天界面与其进行互动，无需下载额外应用或跳转小程序。“元宝”由腾讯元宝 App 入驻微信，搭载混元和 DeepSeek 双模引擎，深度融合微信生态，提供多项智能服务。

“元宝”支持一键解析公众号文章、图片和文档（100MB 以内），并对解读内容进行智能互动，如提取图中文字、解析表格数据、识别物体/场景等。此外，用户可通过语音或文字与其交流，体验如同与真人对话般的流畅互动，聊天时甚至会显示“对方正在输入”。“元宝”的初始语气偏向活泼逗趣，用户也可根据个人偏好进行调整。

目前，“元宝”已在微信内上线，用户可通过搜索添加并开始使用。

6. OpenAI 正式发布 GPT-4.1 系列模型

4 月 15 日，OpenAI 正式发布了全新一代大模型系列 GPT-4.1，包括标准版、Mini 和 Nano 三个版本，全面升级了上下文处理能力、编程效率与指令遵循水平。其中，标准版 GPT-4.1 支持高达 100 万个 token 的上下文窗口，远超前代 GPT-4o 的 12.8 万 token。

在编程能力方面，GPT-4.1 在 SWE-bench Verified 测试中取得 54.6% 的高分，较 GPT-4o 提升 21.4 个百分点。实际应用中，代码生成速度提升 40%，用户输入成本降低 80%，显著提高了开发效率。例如，AI 编程工具 Windsurf 在集成 GPT-4.1 后，编程效率提升 30%，无效编辑减少 50%。

此外，GPT-4.1 在长文本处理方面表现卓越，能够处理约 2000 页文档或 8 个完整的 React 代码库。在“大海捞针”测试中，模型在百万 token 范围内准确召回关键信息，表现优于 GPT-4o。在法律领域，Thomson Reuters 的 CoCounsel 法律助手采用 GPT-4.1 后，多文档审阅准确率提升 17%。

目前，GPT-4.1 系列模型已通过 API 向开发者开放。此外，OpenAI 计划在 2025 年 7 月逐步淘汰 API 中的 GPT-4.5 Preview 模型。

7. OpenAI 发布 o3 与 o4-mini 推理模型

4 月 17 日，OpenAI 正式发布两款全新推理模型：o3 和 o4-mini，标志着 AI 在多模态推理能力上的重大飞跃。这两款模型不仅能处理文本，还能“看图思考”，将视觉信息纳入推理链条，提升了在编程、数学和科学等复杂任务中的表现。

o3 被誉为 OpenAI 迄今最强的推理模型，具备网页浏览、Python 执行、图像分析与生成等能力，能够在推理过程中自动缩放、旋转图像以辅助理解。而 o4-mini 则是面向高效推理的轻量级模型，在保持强大性能的同时，优化了速度和成本，适用于资源受限的场景。

这两款模型已集成至 ChatGPT 的 Plus、Pro 和 Team 版本，并可通过 API 访问。其发布也引发了关于 AI 模型命名混乱的讨论，OpenAI CEO 山姆·奥特曼表示将于夏季进行命名体系的重组，以提升用户体验。

8. ChatGPT 低调推出“记忆搜索”功能

4 月 16 日，OpenAI 低调上线了全新功能“Memory with Search”，进一步强化了 ChatGPT 的个性化能力。该功能允许 ChatGPT 在进行网页搜索时，自动调用用户过往对话中存储的个人信息（如饮食偏好、居住城市等），以优化搜索查询并提供更贴合用户需求的结果。

例如，若用户曾提及自己是素食主义者且居住在旧金山，当输入“附近有哪些我可能喜欢的餐厅”时，ChatGPT 会将查询重写为“旧金山的素食餐厅推荐”，从而提供更精准的搜索结果。这一机制使得 AI 助手在理解用户意图和上下文方面更进一步，朝着真正的“数字伴侣”迈进。

目前，“Memory with Search”功能已默认启用，适用于此前已开启记忆功能的用户。用户可在设置中管理或关闭此功能。

9. OpenAI 发布开源工具 Codex CLI

4 月 17 日，OpenAI 正式发布了轻量级终端编码智能体 Codex CLI，并在 GitHub 完全开源。该工具旨在为习惯在命令行工作的开发者提供 ChatGPT 级别的推理能力，结合代码执行、文件操作和版本控制，实现“聊天驱动开发”体验。

Codex CLI 支持自然语言指令，能够生成代码、重构函数、创建测试用例，甚至执行数据库迁移等任务。用户可通过命令行输入指令，如 codex "解释这个代码库给我"，即可获得对应的代码解释。此外，工具还支持多模态输入，允许用户传入截图或图表，结合本地代码进行推理和开发。

该工具提供三种运行模式：默认的“建议模式”仅读取文件，所有更改需用户确认；“自动编辑模式”允许自动修改文件内容；“全自动模式”则在沙盒环境中执行代码和文件操作，确保安全性。目前，Codex CLI 支持 macOS 12+、Ubuntu 20.04+/Debian 10+ 以及 Windows 11 的 WSL2 子系统，建议内存为 8GB。

10. OpenAI 拟斥资 30 亿美元收购 AI 编程工具 Windsurf

据彭博社等多家媒体报道，OpenAI 正在与 AI 编程助手工具 Windsurf（前身为 Codeium）进行收购谈判，交易金额约为 30 亿美元，若达成，将成为 OpenAI 迄今最大的一笔收购。

Windsurf 由 Exafunction Inc. 开发，主打“agentic IDE”（具备代理能力的集成开发环境），支持自然语言提示生成代码、上下文感知补全等功能。其旗舰产品包括 Cascade、Supercomplete、Memories 和 Windsurf Tab 等，致力于提升开发者的编程效率和协作体验。

此前，OpenAI 曾尝试收购另一家 AI 编程工具 Cursor 的开发商 Anysphere，但未能达成协议。Anysphere 此后估值飙升至 100 亿美元，成为 OpenAI 在该领域的重要竞争对手之一。

此次收购若成功，预计将引发监管机构的关注，尤其是在 OpenAI 与微软合作紧密的背景下，可能面临反垄断审查。此外，Windsurf 用户近期收到通知，称即将推出每月 10 美元的订阅计划，进一步加剧了市场对收购传闻的关注。

OpenAI 此前已完成 400 亿美元的融资，估值达 3000 亿美元，为此次收购提供了充足的资金支持。若交易达成，OpenAI 将在 AI 编程工具领域与 GitHub Copilot、Amazon CodeWhisperer 等展开更为激烈的竞争。

11. 谷歌发布混合推理模型 Gemini 2.5 Flash

4 月 17 日，谷歌正式推出全新混合推理模型 Gemini 2.5 Flash，在性能与成本之间实现了前所未有的平衡。该模型引入了“思考预算”（Thinking Budget）机制，允许开发者根据任务需求，灵活控制模型的推理深度，从而在响应质量、延迟和计算成本之间进行精细权衡。

Gemini 2.5 Flash 是谷歌首个支持“思考开关”的模型，开发者可以根据具体应用场景，选择开启或关闭模型的推理能力。在处理复杂任务（如数学推理或研究分析）时，开启思考功能可提升回答的准确性和深度；而在处理简单查询时，关闭思考功能则可显著降低延迟和成本。此外，思考预算机制还允许设置模型在推理阶段使用的最大计算资源，确保在满足性能需求的同时，避免资源浪费。

在成本方面，Gemini 2.5 Flash 表现出色。在关闭思考功能的情况下，输出成本低至每百万 tokens 0.60 美元；而在开启思考功能时，成本为每百万 tokens 3.50 美元，远低于同类高性能模型的价格。该模型支持最多 100 万个输入 tokens 和 6.5 万个输出 tokens，并具备多模态输入能力，包括文本、图像、音频和视频。

目前，Gemini 2.5 Flash 已在 Google AI Studio 和 Vertex AI 平台上线预览版，开发者可通过 Gemini API 进行集成和测试。

12. 谷歌向美国大学生免费开放 Google One AI Premium

4 月 18 日，谷歌宣布面向美国大学生免费开放其原价每月 19.99 美元的 Google One AI Premium 订阅服务，免费期限至 2026 年 6 月 30 日，总价值超 300 美元。符合条件的学生需在 2025 年 6 月 30 日前通过有效的 .edu 邮箱注册，并在 2025 年 8 月 31 日前完成学籍验证，即可享受长达 15 个月的 AI 工具和 2TB 云存储服务。

该计划基于谷歌最新的 Gemini 2.5 Pro 模型，提供以下核心功能：

Gemini Advanced：支持复杂写作、实时对话（Gemini Live）、头脑风暴（Canvas）等功能。
NotebookLM Plus：可上传课程资料，生成摘要、音频概览、学习指南和脑图，助力高效学习。
Google Workspace 集成：在 Gmail、Docs、Sheets 和 Slides 中嵌入 AI 助手，提升写作、数据分析和演示制作效率。
Veo 2 与 Whisk：支持文本生成视频、图文混合创作及动画效果，激发创意表达。
2TB 云存储：适用于 Google Drive、Gmail 和 Google Photos，满足学术与个人文件的存储需求。

13. 谷歌 Gemini Live 功能向所有安卓用户免费开放

4 月 16 日，谷歌宣布其 AI 助手 Gemini 的“Live”功能正式向所有 Android 用户免费开放，无需订阅 Gemini Advanced 即可使用。该功能允许用户通过手机摄像头或屏幕共享，与 Gemini 进行实时对话，实现对所见内容的智能识别与反馈。

此前，Gemini Live 的摄像头和屏幕共享功能仅限于 Pixel 9 和 Galaxy S25 等旗舰设备的高级订阅用户使用。此次更新后，所有运行 Android 10 及以上版本、内存不低于 2GB 的设备用户，只需安装或更新 Gemini 应用，即可体验这一功能。

Gemini Live 的核心能力包括：

实时视觉识别：用户可通过摄像头指向物体或场景，Gemini 将即时提供相关信息或建议。
屏幕内容分析：在屏幕共享模式下，Gemini 能够理解当前显示内容，提供上下文相关的帮助，如购物建议、翻译或故障排查。
多语言支持：Gemini Live 支持超过 45 种语言的自然对话，提升全球用户的使用体验。

用户可通过长按电源键启动 Gemini，选择“Live”图标，开启摄像头或屏幕共享，开始与 Gemini 的实时对话。

14. xAI Grok 上线“记忆”功能

4 月 17 日，埃隆·马斯克创立的人工智能公司 xAI 宣布，其聊天机器人 Grok 正式上线“记忆”功能，在个性化交互方面向 ChatGPT 和 Gemini 看齐。该功能允许 Grok 记住用户的偏好、兴趣和过往对话内容，从而在未来的交流中提供更贴合用户需求的响应。

用户可通过 Grok 的设置页面管理这一功能，包括查看、删除或完全关闭记忆功能。此外，Grok 还提供“私密聊天”模式，用户在该模式下的对话内容不会被记录。目前，该功能已在 Grok 官网及 iOS 和 Android 应用中上线测试版，暂未在欧盟和英国地区开放。

15. xAI Grok Workspace 正式上线

近日，埃隆·马斯克旗下的 xAI 公司为其 AI 助手 Grok 推出了全新功能模块 —— Workspace，旨在为用户提供更高效的项目管理与协作体验。该功能允许用户创建专属的工作空间，集中管理对话、文件和自定义指令，提升了 Grok 在多任务处理和上下文理解方面的能力。

核心功能亮点包括：

对话分组管理：用户可为不同项目创建独立的 Workspace，将相关对话集中存储，避免信息散乱，提升工作效率。
文件上传与分析：支持上传多种格式的文件（如 PDF、文本、图片等），Grok 可直接读取并分析这些文件，提供摘要、提取关键数据等服务。
自定义指令设置：每个 Workspace 可设定专属的指令，如“使用正式语气，专注于数据分析”，使 Grok 的回应更贴合项目需求。
上下文记忆：在同一 Workspace 内，Grok 会记住之前的对话内容，适合需要多次迭代的任务，如撰写商业计划书等。

目前，Workspace 功能已在 Grok.com 平台上线，所有用户均可使用。

16. xAI 推出 AI 协作创作平台 Grok Studio

4 月 16 日，埃隆·马斯克旗下的 xAI 公司正式推出了全新功能模块 Grok Studio，为其 AI 助手 Grok 增添了强大的创作与协作能力。该平台支持用户与 AI 共同编辑和生成文档、代码、报告，甚至是简单的浏览器游戏，标志着 Grok 从聊天助手迈向多模态创作工具的关键一步。

主要功能亮点包括：

独立窗口协作：Grok Studio 在独立窗口中打开内容，用户可与 Grok 实时协作，共同完善项目。
多语言代码支持与预览：平台支持生成并运行 HTML、Python、C++、JavaScript、TypeScript 和 Bash 等多种语言的代码片段，用户可在“预览”选项卡中即时查看运行效果。
文档与报告生成：用户可通过自然语言指令快速生成结构化文档和数据报告，适用于技术写作、项目总结等多种场景。
网页游戏与应用开发：Grok Studio 支持创建基础网页游戏和交互式应用，降低了非程序员用户的开发门槛。
云端集成：新增对 Google 云端硬盘的支持，用户可将生成内容同步至云端，实现跨设备协作。

目前，Grok Studio 已在 Grok.com 上线，所有免费和付费用户均可使用。

17. Claude Research 功能上线

4 月 15 日，Anthropic 正式发布了其 AI 助手 Claude 的全新功能 —— Research，并同步上线了对 Google Workspace 的深度集成。

Research 功能采用代理式（Agentic）搜索框架，能够主动执行多轮搜索任务，逐步深入问题，自动探索不同角度，并系统化解决开放性问题。用户可获得全面且高质量的答案，附带易于核查的引用信息，确保结果可信。该功能兼顾速度与质量，能在几分钟内完成复杂研究任务，适合日常工作中频繁的信息查询需求。

此外，Claude 还实现了与 Google Workspace 的深度集成，支持 Gmail、Google Calendar 和 Google Docs 等核心应用。用户无需手动上传文件或反复提供背景信息，Claude 可直接访问并理解邮件内容、日历安排及文档细节，自动获取相关工作上下文。基于对用户工作环境的深入理解，Claude 能够提供关联性更强、更精准的辅助，例如根据邮件和日历信息自动生成会议摘要、识别待办事项或查找项目相关资料。

目前，Research 功能处于早期 Beta 测试阶段，面向美国、日本、巴西地区的 Max、Team 和 Enterprise 付费计划用户开放，用户可在设置中启用。Google Workspace 集成同样处于 Beta 阶段，所有付费计划用户均可在个人设置中启用。

18. Perplexity Sonar 模型夺冠 AI 搜索竞技场

在最新发布的 LM Arena 搜索竞技场评测中，Perplexity AI 的 Sonar 模型家族表现卓越，包揽排行榜前四名，全面超越 Google 和 OpenAI 的搜索增强型大模型。其中，Sonar-Reasoning-Pro-High 模型以 1136 分的成绩，与 Google 的 Gemini-2.5-Pro-Grounding（1142 分）并列第一。在直接对比中，Sonar 模型在 53% 的测试中胜出，显示出其在用户偏好方面的优势。