字节跳动发布豆包大模型，卷起价格战；腾讯混元文生图大模型全面开源

本文链接：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/138929185

整理 | 王轶群

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

OpenAI联合创始人兼首席科学家 Ilya Sutskever 离职
AWS 首席执行官亚当·塞利普斯基将辞职
谷歌将Gemini 1.5 Pro 上下文窗口扩展到200万 tokens，一举发布近10款模型
首个中文原生DiT架构，腾讯混元文生图大模型开源
字节跳动发布豆包大模型，主力模型比行业价格低99.3%
Memo AI 现已支持 GPT-4o 翻译视频字幕
Anthropic 在欧洲推出 Claude 聊天机器人和订阅计划

全球 AI 要闻

OpenAI联合创始人兼首席科学家 Ilya Sutskever 离职

Ilya Sutskever 5月15日早间在社交媒体X上发文称，近十年后决定离开OpenAI，并表示“我很期待接下来的计划，这个项目对我个人来说意义重大，我会在适当的时候分享细节。”OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)也在X上发文称，Ilya Sutskever 和 OpenAI 即将分道扬镳。如果没有他，OpenAI就不会有今天。虽然他有自己有意义的工作要做，但永远感激他在这里所做的一切。雅库布·帕乔基(Jakub Pachocki)将成为新任首席科学家。

据报道，雅库布·帕乔基此前曾担任 OpenAI 研究总监，并领导 GPT-4 和 OpenAI Five 的开发。（路透社）

AWS 首席执行官亚当·塞利普斯基将辞职

亚马逊首席执行官安迪·贾西(Andy Jassy) 表示，AWS 首席执行官亚当·塞利普斯基(Adam Selipsky)将于6月3日辞职，由马特·加曼(Matt Garman)接替。

Selipsky于2005年加入AWS，并于2021年成为首席执行官。Selipsky 一直是亚马逊围绕生成式 AI 发布的领军人物，例如部署 Nvidia 的 GH200 芯片、推出名为 Amazon Q 的聊天工具，以及推出亚马逊自己的 Trainium AI 芯片的新版本。（The Verge）

谷歌将 Gemini 1.5 Pro 上下文窗口扩展到200万 tokens，一举发布近10款模型

在Google I/O 2024 大会上，谷歌将 Gemini 1.5 Pro 上下文窗口扩展到了 200 万个 tokens，并以私人预览版的形式提供给开发人员。Gemini 1.5 Pro 现在可以直接在 Gemini Advanced 中供消费者使用，可以跨 35 种语言使用。

谷歌一举发布了近10款模型：

比 Gemini 1.5 Pro 更轻量级的 Gemini 1.5 Flash 发布，针对低延迟和成本等重要的任务进行了优化。
可制作“高质量” 1080p 视频的 Veo 模型和文本生成图像模型 Imagen 3 发布。最新、最先进的视频生成模型Veo：可以视为对标 OpenAI 的 Sora，Google 在今天推出了视频生成模型 Veo，它可以生成各种电影和视觉风格的高质量 1080p 分辨率视频，时间可以超过一分钟。
采用全新架构、27B 大小尺寸的 Gemma 2.0：Gemma 2 将提供新尺寸，并采用专为突破性性能和效率而设计的全新架构。Gemma 2 具有 270 亿个参数，其性能可与 Llama 3 70B 相媲美，但尺寸却只有 Llama 3 70B 的一半。
第一个包含内置设备基础模型的移动操作系统，Android深度集成了 Gemini 模型，成为以 Google AI 为核心的操作系统。
第六代 TPU Trillium 发布，与上一代 TPU v5e 相比，每个芯片的计算性能提高了 4.7
Google 第一个视觉语言开放模型 PaliGemma 现已推出。
Google 发布了一个名为“AI 概述”（AI Overviews）的功能，做到“一次搜索，获得所有信息”。在照片搜索应用层面上，Google 带来了一个“询问照片”（Ask Photos）功能。
新增 NotebookLM 中的音频输出。

Google DeepMind CEO、联合创始人 Demis Harbis 透露，Google 内部一直在致力于开发对日常生活有帮助的通用 AI Agent，Project Astra（高级视觉和说话响应代理）便是主要的尝试之一。

首个中文原生DiT架构，腾讯混元文生图大模型开源

5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

据了解，这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。升级后的混元文生图大模型采用了与 sora 一致的DiT架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。

升级后的混元文生图模型采用了基于Transformer的扩散模型架构（简称DiT），具备更强的可扩展性，在参数量越多的情况下，性能越强，有利于提升视觉模型生成效果及效率。这也是此前爆红的文生视频产品Sora 背后的关键技术。

目前，腾讯混元文生图模型参数量达 15 亿。评测数据显示，最新的腾讯混元文生图模型效果相比前代提升超过 20%，远超开源的Stable Diffusion模型，在目前已开源的文生图模型中，综合性能最佳，达到国际领先水平。

据了解，腾讯在开源上一直持开放态度，已开源了超 170 个优质项目，均来源于腾讯真实业务场景，覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块，目前在Github上已累计获得超 47 万开发者关注及点赞。

字节跳动发布豆包大模型，主力模型比行业价格低99.3%

5月15日，字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎是字节跳动旗下云服务平台，据火山引擎总裁谭待介绍，经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理1200亿Tokens文本，生成3000万张图片。

“大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有0.0008元/千Tokens，0.8厘就能处理1500多个汉字，比行业便宜99.3%，”谭待表示，大模型从以分计价到以厘计价，将助力企业以更低成本加速业务创新。

豆包大模型原名“云雀”，是国内首批通过算法备案的大模型之一。据悉，字节跳动基于豆包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”，以及星绘、即梦等AI创作工具，并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务，用以提升效率和优化产品体验。

Memo AI 现已支持GPT-4o 翻译视频字幕

5月14日，MemoAI官网发布推文表示，Memo AI 现已支持GPT-4o 翻译视频字幕。测试下来速度快，翻译效果不错，合并情况少。对比 turbo 降低50%的成本，速度提升了两倍。

Memo AI 可以将任何没有字幕的视频实时生成所需语言的字幕和笔记，支持多语言转录和翻译，方便用户提取核心内容。

Anthropic 在欧洲推出 Claude 聊天机器人和订阅计划

Anthropic，亚马逊支持的人工智能初创公司5月13日表示，将于5月14日在欧洲推出生成式人工智能助手 Claude。个人和企业可以通过网络和 iPhone 应用程序使用它。Anthropic 的 Claude 助手的付费订阅版本名为 Claude Pro，将提供给想要访问其所有模型的用户，包括 Anthropic 最先进的产品 Claude 3 Opus。Anthropic 还推出了以业务为中心的 Claude Team 订阅计划，每月费用为 28 欧元（30 美元），不含增值税 (VAT)。Anthropic 首席执行官兼联合创始人 Dario Amodei 在周二的一份声明中表示：“我们在设计 Claude 时就坚定地致力于准确性、安全性和隐私性。”欧盟今年早些时候通过了世界上第一套管理人工智能的主要监管基本规则。（CNBC）