AI日报｜谷歌发布Astra反击GPT-4o，字节发布9个自研大模型，腾讯混元开源文生图大模型...-CSDN博客

本文链接：https://blog.csdn.net/m0_56647251/article/details/139000302

文章推荐

GPT-4o重磅发布，第一时间用户测评，OpenAI也存在夸张宣传？

OpenAI直播倒计时，GPT-5被证缺席，GPT-3.5至5，一文看懂AI进化大不同！

本期热点

谷歌召开I/O 2024：发布Project Astra反击GPT-4o，Gemini系列模型大更新

联合创始人兼AI先驱Ilya Sutskever离开OpenAI

美国和中国将举行人工智能安全谈判，以防止“误判和意外冲突”

字节跳动正式发布自研豆包大模型系列，“比行业便宜99.3%”

升级对标Sora，腾讯混元开源文生图大模型

...

谷歌I/O 2024：发布Project Astra反击GPT-4o，Gemini系列模型大更新

在Google I/O 2024大会上，谷歌分享了如何利用AI构建更有用的产品和功能，大会包含以下分享内容：

Gemini系列模型更新：

Gemini 1.5 Pro升级：将上下文窗口扩展到200万个token，还通过数据和算法的进步增强了其代码生成、逻辑推理和规划、多轮对话以及音频和图像理解。Gemini 1.5 Pro升级，可以遵循日益复杂和细致的指令，包括指定涉及角色、格式和风格行为指令。

Gemini 1.5 Flash发布：1.5 Flash是Gemini模型系列的最新成员，也是API中速度最快的Gemini模型。它针对大规模大批量、高频的任务进行了优化，服务更具成本效益。

Gemini Advanced：引入Gemini 1.5 Pro后可以处理多个大型文档，制定复杂计划，并且将为Gemini Advanced订阅者推出Gemini Live，实现更好语言交互。

发布有视觉记忆的AI助手Project Astra：

它可以实时处理文本、视频和音频，能够回答有关对方的问题并解释它们，或生成创意输出，并且可以识别和解释白板上的图表或程序代码。

对标Sora，推出视频生成模型Veo：

Veo可以生成超过一分钟高质量1080p分辨率视频，具有多种电影和视觉风格。并且可以准确地捕捉提示的细微差别和基调，提供前所未有的创意控制水平—理解各种电影效果的提示，例如延时或风景的空中拍摄。

Google Search AI发布AI Overviews：

基于定制的Gemini模型的多步推理功能，AI Overviews将有助于解决日益复杂的问题。无需将问题分解为多个搜索，可以一次性提出最复杂的问题，以及您想到的所有细微差别和注意事项。

Gemma family加入新成员：

第一个视觉语言开放模型PaliGemma，针对图像字幕、视觉问答和其他图像标记任务进行了优化。

下一代开放模型Gemma2将于今年6月发布，性能优于一些尺寸超过其两倍的模型，并且可以在GPU或Vertex AI中的单个TPU主机上高效运行。

了解详情：

https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/

联合创始人兼AI先驱Ilya Sutskever离开OpenAI

OpenAI的联合创始人兼开创性AlexNet论文的合著者Ilya Sutskever在近 10年后离开公司，去追求一个对其“个人有重要意义”的新项目。Jakub Pachocki将接任研究主管一职，Jakub在OpenAI工作了7年多，被首席执行Sam Altman描述为他这一代最杰出的思想家之一。根据Sam的说法，他领导了公司的大部分重大项目。2022年11月，Ilya参与了首席执行官Sam Altman的临时罢免，后者因强制商业化和相关安全风险而受到批评。然而，调查发现解雇是没有根据的。Ilya道歉，帮助恢复了Altman的职位，然后离开了董事会。在Ilya辞职几小时后，AI安全研究员Jan Leike也宣布了离开。Leike与Ilya 共同领导了OpenAI在2023年夏天成立的Superalignment团队，目标是逐步迭代对齐超级智能，创造一位与人类能力相当的自动化对齐研究员。

了解详情：

https://the-decoder.com/co-founder-and-ai-pioneer-ilya-sutskever-leaves-openai/

字节跳动正式发布自研豆包大模型系列，“比行业便宜99.3%”

今日举办的2024春季火山引擎FORCE原动力大会上，字节跳动重磅推出了其自研的“豆包大模型”系列。这款大模型家族涵盖了豆包通用模型Pro、liti，以及豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型、豆包·Function Call模型等九大模型，全面展现了字节跳动在人工智能领域的深厚积累和创新能力。“大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有0.0008元/千Tokens，0.8厘就能处理1500多个汉字，比行业便宜99.3%。”谭待表示，大模型从以分计价到以厘计价，将助力企业以更低成本加速业务创新。

了解详情：

https://mp.weixin.qq.com/s/WPs7Gt3Dt_SqkN1PJXsmmw

升级对标Sora，腾讯混元开源文生图大模型

腾讯宣布旗下的混元文生图大模型升级并对外开源，目前已经在Hugging Face及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。升级后的混元文生图大模型采用了与Sora一致的DiT架构，腾讯表示，混元 DiT是首个中英双语DiT架构。混元DiT是一个基于 Diffusion transformer 的文本到图像生成模型，此模型具有中英文细粒度理解能力，混元DiT能够与用户进行多轮对话，根据上下文生成并完善图像。这也是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。

了解详情：

https://www.ithome.com/0/767/876.htm

如有侵权，请联系删除。

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育，覆盖大规模图学习，因果推理，知识图谱，大模型等技术领域，欢迎扫码关注，解锁更多 AI 资讯～