AI日报|谷歌发布Astra反击GPT-4o,字节发布9个自研大模型,腾讯混元开源文生图大模型...

文章推荐

GPT-4o重磅发布,第一时间用户测评,OpenAI也存在夸张宣传?

OpenAI直播倒计时,GPT-5被证缺席,GPT-3.5至5,一文看懂AI进化大不同!

本期热点

谷歌召开I/O 2024:发布Project Astra反击GPT-4o,Gemini系列模型大更新

联合创始人兼AI先驱Ilya Sutskever离开OpenAI

美国和中国将举行人工智能安全谈判,以防止“误判和意外冲突”

字节跳动正式发布自研豆包大模型系列,“比行业便宜99.3%”

升级对标Sora,腾讯混元开源文生图大模型

...

谷歌I/O 2024:发布Project Astra反击GPT-4o,Gemini系列模型大更新

在Google I/O 2024大会上,谷歌分享了如何利用AI构建更有用的产品和功能,大会包含以下分享内容:

  • Gemini系列模型更新:

Gemini 1.5 Pro升级:将上下文窗口扩展到200万个token,还通过数据和算法的进步增强了其代码生成、逻辑推理和规划、多轮对话以及音频和图像理解。Gemini 1.5 Pro升级,可以遵循日益复杂和细致的指令,包括指定涉及角色、格式和风格行为指令。

Gemini 1.5 Flash发布:1.5 Flash是Gemini模型系列的最新成员,也是API中速度最快的Gemini模型。它针对大规模大批量、高频的任务进行了优化,服务更具成本效益。

Gemini Advanced:引入Gemini 1.5 Pro后可以处理多个大型文档,制定复杂计划,并且将为Gemini Advanced订阅者推出Gemini Live,实现更好语言交互。

  • 发布有视觉记忆的AI助手Project Astra:

它可以实时处理文本、视频和音频,能够回答有关对方的问题并解释它们,或生成创意输出,并且可以识别和解释白板上的图表或程序代码。

  • 对标Sora,推出视频生成模型Veo:

Veo可以生成超过一分钟高质量1080p分辨率视频,具有多种电影和视觉风格。并且可以准确地捕捉提示的细微差别和基调,提供前所未有的创意控制水平—理解各种电影效果的提示,例如延时或风景的空中拍摄。

  • Google Search AI发布AI Overviews:

基于定制的Gemini模型的多步推理功能,AI Overviews将有助于解决日益复杂的问题。无需将问题分解为多个搜索,可以一次性提出最复杂的问题,以及您想到的所有细微差别和注意事项。

  • Gemma family加入新成员:

第一个视觉语言开放模型PaliGemma,针对图像字幕、视觉问答和其他图像标记任务进行了优化。

下一代开放模型Gemma2将于今年6月发布,性能优于一些尺寸超过其两倍的模型,并且可以在GPU或Vertex AI中的单个TPU主机上高效运行。

了解详情:

https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/

联合创始人兼AI先驱Ilya Sutskever离开OpenAI

OpenAI的联合创始人兼开创性AlexNet论文的合著者Ilya Sutskever在近 10年后离开公司,去追求一个对其“个人有重要意义”的新项目。Jakub Pachocki将接任研究主管一职,Jakub在OpenAI工作了7年多,被首席执行Sam Altman描述为他这一代最杰出的思想家之一。根据Sam的说法,他领导了公司的大部分重大项目。2022年11月,Ilya参与了首席执行官Sam Altman的临时罢免,后者因强制商业化和相关安全风险而受到批评。然而,调查发现解雇是没有根据的。Ilya道歉,帮助恢复了Altman的职位,然后离开了董事会。在Ilya辞职几小时后,AI安全研究员Jan Leike也宣布了离开。Leike与Ilya 共同领导了OpenAI在2023年夏天成立的Superalignment团队,目标是逐步迭代对齐超级智能,创造一位与人类能力相当的自动化对齐研究员。

了解详情:

https://the-decoder.com/co-founder-and-ai-pioneer-ilya-sutskever-leaves-openai/

字节跳动正式发布自研豆包大模型系列,“比行业便宜99.3%”

今日举办的2024春季火山引擎FORCE原动力大会上,字节跳动重磅推出了其自研的“豆包大模型”系列。这款大模型家族涵盖了豆包通用模型Pro、liti,以及豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型、豆包·Function Call模型等九大模型,全面展现了字节跳动在人工智能领域的深厚积累和创新能力。“大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有0.0008元/千Tokens,0.8厘就能处理1500多个汉字,比行业便宜99.3%。”谭待表示,大模型从以分计价到以厘计价,将助力企业以更低成本加速业务创新。

了解详情:

https://mp.weixin.qq.com/s/WPs7Gt3Dt_SqkN1PJXsmmw

升级对标Sora,腾讯混元开源文生图大模型

腾讯宣布旗下的混元文生图大模型升级并对外开源,目前已经在Hugging Face及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。升级后的混元文生图大模型采用了与Sora一致的DiT架构,腾讯表示,混元 DiT是首个中英双语DiT架构。混元DiT是一个基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。这也是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。

了解详情:

https://www.ithome.com/0/767/876.htm

如有侵权,请联系删除。

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育,覆盖大规模图学习,因果推理,知识图谱,大模型等技术领域,欢迎扫码关注,解锁更多 AI 资讯~

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值