腾讯发布推理模型T1，OpenAI新语音模型，Claude联网搜索，谷歌Gemini重磅更新！| AI Weekly 3.17-3.23

本文链接：https://blog.csdn.net/weixin_40774379/article/details/146448253

📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🧠 腾讯发布深度思考模型 T1 ：基于混元 Turbo S 架构，采用业界首创 Hybrid-Mamba-Transformer 融合技术，MMLU-PRO 评分 87.2 分，仅次于 o1，目前已在腾讯云上线。

2️⃣ 🌟 百度文心大模型 4.5 和 X1 免费开放 ：两款模型已提前在文心一言官网免费向用户开放，其中 X1 专注于深度思考能力，4.5 强化多模态理解能力。

3️⃣ 🎙️ OpenAI 发布新一代语音模型 ：推出 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts，提升语音转文本和文本转语音能力，多语言性能出色。

4️⃣ 💰 OpenAI 推出 o1-pro API ：成为史上最昂贵模型，输入价格 150 美元每百万 tokens，输出价格 600 美元每百万 tokens，比 DeepSeek-R1 贵约 270 倍。

5️⃣ 📊 OpenAI 发布 ChatGPT 情绪影响研究 ：与 MIT 合作分析 4000 万次交互，发现与 AI 高度情感依赖的用户孤独感增加，女性用户社交频率略有下降。

6️⃣ 🔍 Anthropic 为 Claude 添加网络搜索 ：美国付费用户已可预览，自动提取网络信息并在答案中提供直接引用，未来将扩展至免费用户。

7️⃣ 📝 谷歌 Gemini 推出 Canvas 与音频概览 ：Canvas 提供实时文档代码协作空间，Audio Overview 将文字转为播客式音频，支持多人 AI 主持讨论。

8️⃣ 🔎 Grok 悄然上线 Deeper Search ：比 Deep Search 更深度的搜索功能，可整理数据生成详细报告，但搜索耗时较长，达 7 分钟左右。

9️⃣ 🖼️ xAI 推出图像生成 API ：基于 grok-2-image-1212 模型，每次最多生成 10 张图，每张收费 0.07 美元，但不支持调整图片质量和风格。

1️⃣0️⃣ 📱 Hugging Face 推出本地 AI 助手 HuggingSnap ：基于轻量级多模态模型 smolVLM2，在 iOS 设备本地处理，保护用户隐私，适合旅行翻译等场景。

1️⃣1️⃣ 🔹 Mistral AI 发布小模型 Mistral Small 3.1 ：240 亿参数，支持 128K tokens 上下文，推理速度达 150 tokens/秒，支持多模态理解，可在单张 RTX 4090 本地运行。

1️⃣2️⃣ 👨‍💼 苹果 AI 部门换帅 ：Vision Pro 负责人 Mike Rockwell 接管 Siri 业务，原 AI 负责人 Giannandrea 权力下放，旨在解决 AI 产品开发进度缓慢问题。

1️⃣3️⃣ 🖥️ 英伟达发布下一代 AI 芯片 Rubin ：性能是 Hopper 架构的 900 倍，包括 Vera Rubin NVL144 和 Rubin Ultra NVL576 两款型号，预计 2026 年下半年出货。

1. 腾讯发布自研深度思考模型 T1

腾讯于 3 月 21 日深夜正式发布了自研的深度思考模型 T1。该模型基于腾讯此前推出的混元 Turbo S 架构，采用了 Hybrid-Mamba-Transformer 融合模式，这是业界首次将混合 Mamba 架构成功应用于超大型推理模型。

这一创新架构有效降低了传统 Transformer 结构的计算复杂度，减少了 KV-Cache 的内存占用，从而显著降低了训练和推理成本。在性能方面，T1 展现了卓越的推理能力和超长文本处理能力，能够在秒级时间内生成高质量的文本内容。

值得注意的是，T1 在多个权威基准测试中取得了优异成绩。在大语言模型评估增强数据集 MMLU-PRO中，T1 获得了 87.2 分，超越了 DeepSeek-R1，仅次于 o1。此外，T1 在 CEval、AIME、Zebra Logic 等中英文知识及竞赛级数学、逻辑推理的公开基准测试中也表现出色，达到了业界领先水平。

目前，T1 已在腾讯云官网上线，提供 API 使用和企业用户试用申请。根据官方定价，输入价格为每百万 tokens 1 元，输出价格为每百万 tokens 4 元。

2. 百度发布并免费开放文心大模型 4.5 和 X1

3 月 16 日，百度正式发布了其最新的人工智能模型—— 文心大模型 4.5 和 文心大模型 X1。这两款模型现已在文心一言官网免费向用户开放，用户可通过文心一言体验。

文心大模型 4.5 具备多模态理解能力，能够综合理解文字、图片、音频、视频等多种内容形式。例如，在处理包含图表和文字的任务时，能够精确提取关键信息并给出详细解答。此外，文心大模型 4.5 在理解、生成、逻辑推理和记忆等方面表现突出，采用了如 FlashMask 动态注意力掩码等核心技术，优化了长文处理和多轮交互的表现。

文心大模型 X1 则是一款专注于深度思考的推理模型。X1 通过递进式强化学习和基于思维链和行动链的端到端训练，在理解、规划、反思和进化等方面表现出色，适用于中文知识问答、文学创作和逻辑推理等场景。

目前，文心大模型 4.5 和 文心大模型 X1 已免费开放使用，用户可以通过文心一言官网体验这两款模型，并通过百度智能云千帆大模型平台调用其 API 接口。

值得注意的是，百度此前计划于 4 月 1 日免费开放文心一言，现已将免费时间提前。

3. OpenAI 发布新一代语音模型

3 月 20 日，OpenAI 官宣推出了新一代语音转文本（speech-to-text）和文本转语音（text-to-speech）模型。这些模型的发布为开发者提供了构建更精准、可定制的语音交互系统的工具，推动了人工智能语音技术的商业化应用。

新模型概览

此次发布的模型包括：

gpt-4o-transcribe：专注于语音转文本，能够在多种语言和口音环境下提供高精度的转录服务。
gpt-4o-mini-transcribe：基于 GPT-4o-mini 架构，提供高性价比的语音转文本解决方案，适用于资源有限但需要高质量语音识别的场景。
gpt-4o-mini-tts：文本转语音模型，支持开发者控制语音的内容和表达方式，提供多种预设语音风格，如“平静”、“专业”等。

性能与应用

根据 FLEURS 多语言基准测试，gpt-4o-transcribe 在英语、西班牙语等多种语言上表现优异，超越了现有的 Whisper 模型。这些模型特别适用于需要处理多样口音、复杂环境噪音和快速语速变化的场景，如呼叫中心和会议记录转录等。

定价与获取

gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的定价与之前的 Whisper 模型相同，每分钟 0.006 美元。gpt-4o-mini-tts 的定价为每分钟 0.015 美元。开发者可通过 OpenAI 官方渠道申请使用这些模型。

4. OpenAI 推出史上最昂贵模型 o1-pro API

3 月 20 日，OpenAI 正式发布了其最新推理模型 o1-pro API，成为 OpenAI 公司历史上最昂贵的模型。

定价详情

输入费用：每百万个 tokens 收费 150 美元。
输出费用：每百万个 tokens 收费 600 美元。

相比之下，o1-pro 的定价是 DeepSeek 的 R1 模型的约 270 倍。

功能与适用性

o1-pro 提供更高质量的连续响应，支持视觉处理、函数调用和结构化输出，兼容 Responses API 和 Batch API。

目前，o1-pro API 已对 T1 至 T5 等级的所有开发者开放。

5. OpenAI 发布首份 ChatGPT 影响人类情绪健康研究

OpenAI 与麻省理工学院媒体实验室合作，发布了首份关于 ChatGPT 对人类情绪健康影响的研究。研究分析了近 4000 万次与 ChatGPT 的互动数据，并对 4076 名用户进行了调查。结果显示，尽管大多数用户将 ChatGPT 视为生产力工具，但少部分用户与其建立了情感联系。女性用户在使用四周后，与他人交往的频率略有下降。此外，与 ChatGPT 互动时表现出较高情感依赖性的用户，报告称其孤独感明显增加。

研究强调了负责任开发和透明化的重要性，呼吁 AI 开发者关注技术对用户情感健康的潜在影响。OpenAI 安全研究员 Jason Phang 表示，这项工作是深入了解 ChatGPT 对用户影响的第一步，旨在帮助人工智能平台实现更安全、更健康的互动。

6. Anthropic 为 Claude 新增网络搜索功能

3 月 21 日，Anthropic 公司宣布，其聊天机器人 Claude 现已支持网络搜索功能。该功能目前已在美国的付费用户中推出预览版，计划未来扩展至免费用户和其他国家地区。

启用方法

用户可在 Claude 的个人资料设置中启用网络搜索功能。启用后，Claude 将在需要时自动从互联网上提取信息，并在回答中提供直接引用，方便用户核实信息来源。

功能优势

这一功能使 Claude 能够获取最新信息，提升了其在处理时事和动态内容方面的能力。用户可通过 Claude 搜索行业趋势、市场数据、研究资料等，辅助决策和研究。

注意事项

尽管网络搜索功能增强了 Claude 的实用性，但用户在使用时应注意信息的准确性和可靠性，特别是涉及关键信息时，建议交叉验证多个来源。

7. 谷歌 Gemini 推出 Canvas 与音频概览功能

3 月 19 日，谷歌为其人工智能助手 Gemini 推出了两项重要新功能：Canvas 协作工作空间和 Audio Overview 音频概览，旨在增强用户的创作与协作体验。

Canvas：互动式文档与代码协作

Canvas 提供了一个互动式工作空间，用户可以在其中与 Gemini 实时共同创建和编辑文档及代码。该功能支持实时预览修改效果，特别是在编码项目中，用户可以边编辑边查看代码效果。完成的文档还可直接导出至 Google Docs，方便进一步处理。

Audio Overview：将文字内容转化为播客音频

Audio Overview 功能允许用户将文档、幻灯片甚至深度研究报告等书面内容，转化为由两位 AI 主持人进行分析与讨论的播客式音频。这一功能最初在谷歌的笔记应用 NotebookLM 中推出，现已扩展至 Gemini。用户只需上传相关文件，即可生成音频摘要，方便在移动中获取信息。

目前，这两项功能已全球上线，Gemini 和 Gemini Advanced 用户均可使用。需要注意的是，Audio Overview 功能目前仅支持英语，未来将支持更多语言。

8. Grok 悄悄上线 Deeper Search 功能

3 月 18 日，xAI 于悄然为其 AI 聊天机器人 Grok 推出了名为 Deeper Search 的新功能。这一功能增强了 Grok 的搜索能力，能够执行深入搜索、整理数据并生成详细报告。

功能特点：

深入搜索：相比之前的 Deep Search，Deeper Search 提供了更深度的搜索功能，能够获取和处理更广泛的信息。
快速信息更新：得益于马斯克雄厚的财力和 xAI 丰富的资源，Deeper Search 实现了信息的快速更新，确保用户获取最新数据。
数据整理与报告生成：Deeper Search 不仅能搜索信息，还能整理数据并生成结构化报告，提升用户的工作效率。

用户在使用 Deeper Search 时，发现同样的搜索任务在 Deeper Search 模式下耗时约 7 分钟，而在普通 Deep Search 模式下则不到 2 分钟。

截至目前，马斯克和 xAI 官方尚未对 Deeper Search 的推出进行任何公开宣传或提供详细介绍。

9. 马斯克旗下 xAI 推出图像生成 API

3 月 20 日，马斯克旗下的人工智能公司 xAI 为其 API 添加了图像生成功能。该功能基于 grok-2-image-1212 模型，用户输入描述后，每次请求最多可生成 10 张 JPG 格式的图片。每秒请求处理限制为 5 次，每张图片收费 0.07 美元（约合 0.51 元人民币）。

相比之下，人工智能初创公司 Black Forest Labs 的收费约为每张图片 0.05 美元，而 Ideogram 的收费更高，为每张图片 0.08 美元。需要注意的是，xAI 的 API 当前不支持调整图片的质量、尺寸或风格，且用户输入的提示词可能会经过“聊天模型”进行修改。

自 2024 年 10 月推出 API 以来，xAI 一直在寻求新的收入来源，以加速旗舰模型 Grok 3 的训练和研发。目前，xAI 正与投资者洽谈 100 亿美元的融资，若交易达成，估值可能达到 750 亿美元。

10. Hugging Face 推出本地 AI 助手 HuggingSnap

3 月 20 日，Hugging Face 推出了全新的 iOS 应用 HuggingSnap，旨在为用户提供本地化的 AI 助手体验。该应用基于轻量级多模态模型 smolVLM2，无需依赖云端服务器，所有数据处理均在本地设备上完成，确保用户隐私安全。

主要特点：

本地处理：HuggingSnap 在用户设备上直接进行计算，避免了数据上传至云端的过程，有效保护用户隐私。
模型优化：应用采用 smolVLM2 模型，该模型专为移动设备优化，能够高效处理图像和视频分析任务。根据模型参数规模的不同（从 2.56 亿到 22 亿参数），用户可以根据需求选择适合的模型版本。
功能应用：用户可以利用 HuggingSnap 实现复杂场景描述（如街景解析）、多语言文字识别（如旅行中路牌翻译）等功能，特别适合视障人士辅助导航。

Hugging Face 强调，HuggingSnap 的设计优先考虑隐私保护，所有数据仅存储于本地设备，不会与第三方共享。目前，HuggingSnap 已在 iOS 平台上线，用户可前往 App Store 下载体验。

11. Mistral AI 推出小模型 Mistral Small 3.1

3 月 17 日，Mistral AI 发布了最新小参数模型—— Mistral Small 3.1。该模型拥有 240 亿参数，显著提升了文本处理能力和多模态理解能力。其上下文窗口扩展至 128K tokens，推理速度高达每秒 150 个 tokens。

关键特点：

高效运行：Mistral Small 3.1 可在单张 NVIDIA RTX 4090 显卡或配备 32GB 内存的 Mac 上本地运行，适用于需要快速响应的应用场景，如虚拟助手。
多模态理解：该模型支持处理文本和图像输入，能够理解和生成多模态内容，拓展了应用范围。
多语言支持：Mistral Small 3.1 提供强大的多语言理解能力，适用于全球化应用。
长文本处理：扩展至 128K tokens 的上下文窗口，使其能够处理更长的文本输入，提升了在复杂任务中的表现。
高性能：推理速度达到每秒 150 个 tokens，确保了低延迟和高吞吐量。

性能比较：

与同类模型相比，Mistral Small 3.1 在多个基准测试中表现出色，优于 Gemma 3 和 GPT-4o Mini 等模型。

应用场景：

Mistral Small 3.1 适用于需要多模态理解和长文本处理的场景，如文档验证、诊断支持、设备端图像处理、质量检测、安防监控、基于图像的客户支持等。

获取方式：

Mistral Small 3.1 现已在 Hugging Face 网站上提供下载，包括基础模型和指令微调模型。此外，用户可通过 Mistral AI 的开发者平台 La Plateforme 体验该模型的 API 服务。

12. 苹果高层震荡，AI 部门换帅

苹果公司近期进行了一次罕见的高管层重组，旨在重振其因长期延误而停滞的 AI 项目。首席执行官蒂姆·库克（Tim Cook）对 AI 部门负责人约翰·贾安纳皮尼（John Giannandrea）在产品开发方面的执行能力失去信心，决定让 Vision Pro 的创造者迈克·洛克威尔（Mike Rockwell）接管 Siri 业务。

高层调整详情

Mike Rockwell：此前担任 Vision Pro 负责人，现接管 Siri 业务，向软件主管克雷格·费德里吉（Craig Federighi）汇报，Siri 业务将完全脱离 Giannandrea 的管辖。
John Giannandrea：继续负责苹果的 AI 研究，但不再直接参与 Siri 的开发，权力有所下放。
Paul Meade：接任 Vision Pro 硬件工程负责人，继续推进 Vision Pro 项目的发展。

背景与影响

此次高层调整反映了苹果在 AI 领域面临的挑战。此前，苹果曾在 2024 年全球开发者大会（WWDC）上展示了 AI 驱动的功能，如电子邮件管理等，但因技术问题和开发进度缓慢，部分功能发布被推迟，引发了消费者和内部员工的失望。

通过此次人事调整，苹果希望加速 AI 技术的商业化进程，缩小与竞争对手在人工智能领域的差距。然而，能否有效扭转 Siri 开发困境，仍需持续关注。

13. 英伟达正式发布下一代 AI 芯片 Rubin

英伟达（NVIDIA）首席执行官黄仁勋在近期的 GTC 2025 大会上正式宣布了公司新一代 AI 芯片架构——Rubin。这一架构将接替现有的 Hopper 和 Blackwell 架构，预计将大幅提升人工智能领域的计算性能。

Rubin 芯片的关键特点：

推出时间：根据黄仁勋的介绍，Rubin 系列芯片将于 2026 年下半年正式出货。
性能提升：黄仁勋表示，Rubin 的性能将是 Hopper 架构的 900 倍，而 Blackwell 架构的性能是 Hopper 的 68 倍。
芯片型号：Rubin 系列包括 Vera Rubin NVL144 和 Rubin Ultra NVL576 两个型号。其中，Vera Rubin NVL144 将于 2026 年下半年推出，Rubin Ultra NVL576 则计划在 2027 年下半年发布。

值得注意的是，英伟达的芯片架构通常以杰出科学家的名字命名。此次将新架构命名为 Rubin，可能是为了纪念天文学家维拉·鲁宾（Vera Rubin），她对暗物质的研究做出了重要贡献。