OpenAI宣布人工智能技术进入第三阶段；李飞飞空间智能公司获得2.3亿美元融资

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

OpenAI 宣布人工智能技术进入新阶段：AI 执行复杂任务能力显著提升
李飞飞的 World Labs 获 2.3 亿美元融资，致力开发空间智能 AI 模型
Mistral AI 开源 Pixtral 12B 多模态 LLM
Luma Dream Machine 开放 API，引领 DiT 视频生成新潮流
微软宣布第二代 Copilot 和 Agent Builder
腾讯推出游戏视频模型 GameGen-O

国内外 AI 要闻

OpenAI 宣布人工智能技术进入新阶段：AI 执行复杂任务能力显著提升

近日，OpenAI 首席执行官兼创始人山姆·阿尔特曼（Sam Altman）宣布，当前的人工智能模型已经成功实现了 OpenAI 设定的第三阶段技术目标。这一阶段标志着 AI 在自然语言处理和执行复杂任务方面取得了重大进展。AI 现在能够通过自然语言指令执行多步骤的复杂任务，并且在遇到任务不明确或存在歧义时，能够主动询问用户，以获取更多信息，从而更准确地完成任务。

山姆·阿尔特曼进一步透露：“OpenAI 的下一个目标是训练 AI 在多样化的游戏环境中进行操作。这些游戏被视为小型的虚拟世界，具有极大的多样性。AI 需要快速适应这些环境，并学会在不同的游戏中表现出色。这一目标的实现将推动 AI 在生成模型和强化学习等领域的进一步发展，为 AI 技术的广泛应用奠定更坚实的基础。随着 AI 技术的不断进步，我们期待它在更多领域展现其强大的能力。”

此前，OpenAI 明确提出了四个技术目标，主要围绕构建安全人工智能和确保AI的利益尽可能广泛和均匀地分布。以下是这些目标的总结：

阶段 1：测量我们的进展

开发一个活生生的标准，用来衡量一个智能体（agent）在多种环境中实现用户预期目标的能力。这个标准将包括一系列OpenAI Gym环境，这些环境具有统一的动作和观察空间，以便单一智能体可以在所有环境中运行。这包括游戏、机器人和基于语言的任务。

阶段 2：构建家用机器人

目标是开发能够执行家庭任务的机器人，这需要在机器学习和机器人技术方面取得显著进展。

阶段 3（当前）：构建具有实用自然语言理解能力的智能体（Agent）

开发能够理解和响应自然语言指令的智能体，这将推动自然语言处理和理解技术的发展。

阶段 4：使用单一智能体解决多种游戏

目标是训练一个足够强大的智能体，能够解决初始指标中的任何游戏。游戏是多样化的虚拟小世界，快速且良好地学习玩游戏将需要在生成模型和强化学习方面取得重大进展。

李飞飞的 World Labs 获 2.3 亿美元融资，致力开发空间智能 AI 模型

9 月 15 日，李飞飞的空间智能公司 World Labs 正式成立，该公司获得 2.3 亿美元融资，估值 10 亿美金，投资方包括 Andreessen Horowitz、NEA 和 Radical Ventures 等。World Labs 计划在 2025 年推出首款产品，即能够理解三维世界并与之交互的 “大型世界模型”，这些模型将供艺术家、设计师、开发者和工程师等专业人士使用。公司的使命是赋予 AI 丰富的空间智能，将当前 2D 平面的 AI 模型扩展到完整的 3D 虚拟和现实世界。其技术核心是开发具有空间智能的 “基础模型”，未来几个月将分享更多技术和产品详细信息。目前，World Labs 正在招聘人才，专注于推动 AI 走向新高度。

Mistral AI 开源 Pixtral 12B 多模态 LLM

9 月 17 日，Mistral AI 宣布开源 Pixtral 12B，这是首个多模态 Mistral 模型，采用 Apache 2.0 许可证。Pixtral 12B 是 Mistral Nemo 12B 的直接替代品，其架构包括从头开始训练的新型 400M 参数视觉编码器和基于 Mistral Nemo 的 12B 多模态解码器，能处理可变的图像尺寸和纵横比，支持 128k 上下文窗口中的多个图像。该模型在多模态任务中表现强劲，在指令遵循方面尤为出色，同时不牺牲关键文本能力。它在 MMMU 推理基准测试中取得优异成绩，在图表理解、文档问答、多模态推理和指令遵循等任务中有出色表现。Pixtral 12B 可通过 Le Chat、La Plateforme、mistral - inference 和 vLLM 等多种方式运行。

模型下载：https://huggingface.co/mistralai/Pixtral-12B-2409

Luma Dream Machine 开放 API，引领 DiT 视频生成新潮流

近日，Luma Dream Machine 成为首个完全开放 API 的 DiT 视频生成模型。它支持产品本身的所有能力，包括智能提示词优化、文字转视频、图片转视频、摄像机控制、视频延长、Loop 等功能。用户可通过使用量计费，并且能够自己保存输入和输出内容。这一举措为有想法的开发者提供了广阔的创新空间，尤其是对于那些原本就拥有自己图片生产工具的人来说，更是如虎添翼，有望推动视频生成领域的进一步发展。

API：https://lumalabs.ai/dream-machine/api

微软宣布第二代 Copilot 和 Agent Builder

近日，微软宣布推出第二代 Copilot 和 Agent Builder。其中包括将企业数据接入 Agent 的微软版本的 GPTs，以及 AI Workflow，可使用 AI 生成流程，还有能微调模型以创建新的 AI UI 层。微软首席执行官 Satya Nadella 表示，随着 AI 变得更加强大且具有自主性，模型本身逐渐成为一种商品，而所有价值都将通过如何利用企业数据和工作流来引导、基础化和微调这些模型，以及它们如何与人类与 AI 及人类之间交互的 UI 层相结合来创造。此次发布的第二代 Microsoft 365 Copilot 有望为企业和用户带来更高效、智能的体验。

腾讯推出游戏视频模型 GameGen-O

2024 年 9 月，腾讯推出 GameGen-O，这是一个专门生成开放世界视频游戏的 Transformer 模型。它能模拟游戏引擎功能，生成角色、环境、动作等，支持交互控制，用户可通过文本等方式控制游戏内容。消息公布后引发关注，该项目由腾讯联合港科大、中国科大推出，旨在用 AI 模型替代部分游戏开发环节。团队构建了专有数据集 OGameData，采用 GPT-4o 标注数据，并经过两个阶段训练。