豆包视频生成大模型正式发布；Sam Altman深夜发文“画大饼”；谷歌或在明天发布Gemini新模型

本文链接：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/142504076

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

豆包“王炸”：字节跳动一天发布两款视频生成大模型
美国大学花费近 2000 美元测试 OpenAI o1：在推理任务中表现出色，但成本高昂
Google Gemini 模型或将迎来重大升级
Sam Altman 发文，憧憬高度繁荣的 AI 时代
OpenAI 销售称 AI 为史上成本折旧最快技术
OpenAI Academy 启动，助力中低收入国家开发者
Meta AI “模拟明星”聊天机器人将签约名人，本周公布新功能
OpenAI 发布多语言数据集 MMMLU

国内外 AI 要闻

豆包“王炸”：字节跳动一天发布两款视频生成大模型

9 月 24 日，字节跳动旗下火山引擎在深圳举办 AI 创新巡展，正式宣告进军 AI 视频生成，并一举发布了豆包视频生成 - PixelDance、豆包视频生成 - Seaweed 两款大模型，面向企业市场开启邀测。活动现场展示的视频生成效果令人惊叹，在语义理解、多主体运动复杂交互画面以及多镜头切换的内容一致性等方面均达到业界先进水平。火山引擎总裁谭待表示，视频生成有很多难关亟待突破，豆包两款模型会持续演进，探索更多可能性，加速拓展 AI 视频的创作空间和应用落地。

豆包视频生成模型基于 DiT 架构，能实现自然连贯的多拍动作与多主体复杂交互，攻克了多镜头切换的一致性难题，经过业务场景打磨和持续迭代，具备专业级光影布局和色彩调和，深度优化的 Transformer 结构提升了泛化能力，支持多种风格，适配各种设备比例，适用于多种企业场景，也能为专业创作者提供创作辅助。

美国大学花费近 2000 美元测试 OpenAI o1：在推理任务中表现出色，但成本高昂

亚利桑那州立大学的研究人员最近发布了一份关于 OpenAI 最新推理模型o1的评估报告。该报告基于 PlanBench 基准测试，对当前大语言模型（LLMs）和新型大推理模型（LRM）在规划任务中的表现进行了评估。

结果显示，o1 模型在 600 个 Blocksworld 问题上的准确率达到了惊人的 97.8%，远超其他 LLMs。其中，Claude 3.5 和 Claude 3 的准确率分别为 54.8% 和 59.3%，而 Llama 3.1 405B 模型以 62.6% 的准确率在 LLMs 中表现最佳。GPT-4 系列模型表现一般，准确率在 34.6% 到 40.1% 之间。其他模型如 Gemini 1.5 Pro 和 Gemini 1 Pro 的表现则相对较差。

在更具挑战性的 Mystery Blocksworld 测试中，o1 模型同样以 52.8% 的准确率领先其他模型。然而，尽管 o1 模型在准确性上取得了显著成绩，但其推理过程的高成本和耗时性也引起了关注。o1-preview 模型在每个实例上平均花费约 40 秒，而在 Mystery Blocksworld 问题上，推理时间增加到 83 秒。相比之下，经典的规划算法如 Fast Downward，能够以接近零成本和每个实例 0.265 秒的时间解决问题。

从经济成本角度来看，o1 模型的高准确性伴随着昂贵的推理成本。研究者在短期内对 o1 模型的评估花费了高达 1897.55 美元，这远远超过了传统 LLMs 的推理成本。每 100 个实例的推理成本高达 42.12 美元，这使得 o1 模型在成本效益方面面临挑战。

论文链接：https://arxiv.org/pdf/2409.13373

Google Gemini 模型或将迎来重大升级

据 The Run Down AI 创始人 Rowan Cheung 今日在社交平台上透露的消息，他刚刚完成了一次独家访谈，和一位神秘人物讨论了尚未发布的人工智能领域的重大模型升级。Cheung 确认，明天对于开发者们来说将是一个重要的日子，并表示将在解禁后的第一时间，在 X 平台上发布完整的访谈内容。此消息一经发出便引发了网友们的诸多猜测。

紧接着，Google AI Studio 的产品负责人 Logan Kilpatrick 在评论区回应，似乎在暗示 Google 的 Gemini 项目将会有新的模型推出。

Sam Altman 发文，憧憬高度繁荣的 AI 时代

OpenAI 的 Sam Altman 深夜发文表示，高度繁荣的 AI 时代即将到来。他提到，“在接下来的几十年里，我们将能够做一些对祖父母来说看似神奇的事情。” 社会基础设施让人们能力提升，人工智能将为人们提供解决难题的工具，如每个人可能拥有个人人工智能团队，孩子将有虚拟导师等。有了新能力后能共享繁荣，深度学习起了关键作用，它可以真正学习任何数据分布，且随着规模增长变得更好，而 OpenAI 将解决剩余问题。Sam Altman 还强调，人工智能模型将成为自主个人助理，未来还会帮助制造更好的系统并推动科学进步，我们需要降低计算成本，让人工智能成为更多人的工具而非富人专享。

OpenAI 销售称 AI 为史上成本折旧最快技术

OpenAI 的营销人员 Dane Vahey 近期在一场演讲活动中分享报告：在过去的 18 个月里，每百万个 tokens 的成本已从 36 美元降至 0.25 美元。他认为，人工智能是有史以来成本折旧最快的技术。

OpenAI Academy 启动，助力中低收入国家开发者

近日，OpenAI 宣布成立 OpenAI Academy（学院），旨在为中低收入国家的开发者提供技能提升和职业发展机会。该计划将为开发者提供 100 万美元的 API 积分，并通过举办孵化器、竞赛等活动，以及提供专家支持，促进全球开发者的合作和知识共享。此外，OpenAI 还资助了将 MMLU 基准测试翻译成 14 种语言，以扩大非英语社区对人工智能资源的访问。

Meta AI “模拟明星”聊天机器人将签约名人，本周公布新功能

据消息人士透露，Meta 平台计划在本周宣布已与包括朱迪・丹奇、克里斯汀・贝尔、约翰・塞纳、奥卡菲娜和基根 - 迈克尔・基等演员达成协议，为其 Meta AI 聊天机器人提供声音。新的音频功能将为用户提供从包括五位名人在内的列表中为 Meta 的类似 ChatGPT 的数字助手选择声音的选项，以及一些通用声音选项。Meta 将于本周在其年度 Connect 大会上宣布音频功能，预计还将推出其增强现实眼镜的第一个版本，并讨论其他硬件设备的路线图。本周，名人声音将在美国和其他英语市场的 Meta 系列应用程序中推出，包括 Facebook、Instagram 和 WhatsApp。Meta 一直在竞相向其数十亿用户推出生成式人工智能产品，与微软支持的 OpenAI 和 Alphabet 的 Google 竞争以主导新兴技术。

OpenAI 发布多语言数据集 MMMLU

近日，OpenAI 发布了多语言数据集 MMMLU，涵盖 14 种语言，包括阿拉伯语、德语、斯瓦希里语、孟加拉语和约鲁巴语等。该数据集在 Hugging Face 平台上发布，旨在挑战 AI 模型在不同语言环境中的表现，为评估多语言 AI 能力树立新标杆。OpenAI 使用专业人工翻译确保数据集准确性，同时通过与 Hugging Face 合作促进多语言 AI 数据的开放访问。