硬刚OpenAI！谷歌发布Project Astra、Veo，Gemini搜索迎来重大更新

最新推荐文章于 2024-09-24 09:40:31 发布

AiMagicGaGa

最新推荐文章于 2024-09-24 09:40:31 发布

阅读量1.3k

点赞数 49

分类专栏：谷歌 ChatGPT 文章标签：人工智能 chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AiMagicGaGa/article/details/139099154

版权

ChatGPT 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

在此前，OpenAI 故意抢先发布 GPT-4o，通过实时的语音、视频和人机交互震撼了全世界，想体验 GPT-4o 的朋友可以直接访问组团兔小程序共享，Plus版用户能使用所有功能。

谷歌强势回击 OpenAI

在 2024 年 5 月 14 日举行的 Google I/O 大会上，Google 发布了全新文本转图像模型 Imagen 3 以及视频生成模型 Veo，展现了其在人工智能领域的领先实力。被认为是 Google 对 OpenAI 日前发布的 Dall-E 3 和 Sora 的有力回应；谷歌展示的 Project Astra，直接对标了目前 OpenAI 领先的 GPT-4o。

两大 AI 巨头在语言模型、图像和视频生成领域的竞争日趋白热化。此外，Google 还推出了名为 Music AI Sandbox 的工具，专为音乐创作而设计。

Project Astra 上线

现在，谷歌宣布在 Gemini 系列模型中引入了一系列更新，包括家族新成员 Gemini 1.5 Flash（这是谷歌追求速度和效率的轻量级模型）以及 Project Astra（这是谷歌对人工智能助手未来愿景的体现）。

据谷歌官方介绍，Gemini 1.5 Pro 在不久的将来，能够处理长达一小时的视频内容，或者超过 30,000 行的代码库，展现出其强大的跨模态处理能力。

Gemini 搜索

谷歌搜索是 Gemini 最令人兴奋的变革之一

在过去一年中，作为搜索生成体验的一部分，Google 搜索回答了数十亿个查询。如今，用户可以以全新的方式进行搜索，提出新类型的问题、进行更长且复杂的查询，甚至使用照片来搜索，从而获取网络上最优质的信息。

推出 Ask Photos

其中一个例子是 Google Photos，这款应用将近九年前推出。自那时起，人们使用它来整理他们最重要的记忆。如今，每天上传的照片和视频超过 60 亿张。

用照片搜索生活：借助 Gemini，使这一过程变得更加简单。

假设有人在停车场付费站付费，但想不起车牌号。以前，他们可以在 Photos 中搜索关键词，然后在多年的照片中翻找车牌号。现在，只需问 Photos，它知道经常出现的车辆，能推断出哪辆是用户的，并告诉他们车牌号。

Imagen 3

在文本转图像领域，Imagen 3 是 Google 目前最高质量的模型，能够生成比以往模型更加精细、光线更丰富的图像，并且减少令人分心的瑕疵。

显著提升的理解能力：Imagen 3 能根据用户描述生成各种各样的视觉风格，并从较长的描述中捕捉细微细节。

为了提高实用性，Imagen 3 将提供多个版本，每个版本针对不同类型任务进行优化，涵盖从快速生成草图到创作高分辨率图像等多种需求。

通用性更强，理解更迅速

为了实现更大的通用性和对指令的理解，Imagen 3 被设计为能够生成各种格式和风格的高质量图像，从照片般写实的风景画到质感丰富的油画，甚至异想天开的黏土动画场景。

Imagen 3 还能够理解用自然日常语言书写的指令，使其无需复杂的指令就能更获得想要的输出结果。为了帮助 Imagen 3 在长且复杂的指令中捕捉诸如特定相机角度或构图之类的细微差别，其训练数据中每个图像的标题都添加了更丰富的细节。

通过学习更优质的信息，Imagen 3 能够更准确地生成各种主题和风格的图像。

更高质量的图像

Imagen 3 能生成视觉丰富、高质量的图像，具有良好的光线和构图。它可以准确呈现细节，例如人物手上细小的皱纹，以及复杂纹理，例如针织玩偶大象的毛绒质感。

更好的文本渲染

大幅改进了文本渲染功能，为风格化生日贺卡、演示文稿等使用案例带来了新的可能性。

Veo

自 Sora 发布三个月后，谷歌拿出文生视频模型 Veo 正面硬刚 Sora，可以生成时长超过一分钟的视频，打破 Sora 纪录！

Veo 能根据文本、图像和视频提示生成“高质量”1080p 分辨率视频。

谷歌文生视频模型 Veo

更好地理解语言和视觉

Veo 凭借其先进的自然语言理解和视觉语义能力，能够生成紧密贴合文本提示的视频。不仅能生成高质量的视频，还能精准把握提示中的细微差别和基调，提供前所未有的创作控制力。它能够理解各种电影特效的指令，例如延时摄影或航拍风景。

该模型还能制作视频短片，并将其延长至 60 秒或更长。它既可以根据单个提示，也可以根据一连串的提示制作视频短片，这些提示共同讲述了一个故事。

视频帧间的一致性

对于视频生成模型来说，保持视觉一致性是一项挑战。人物、物体甚至整个场景都可能在帧与帧之间意外闪烁、跳跃或变形，从而破坏观看体验。Veo 的尖端潜像扩散变换器可减少这些不一致性的出现，使人物、物体和风格保持原位，就像在现实生活中一样。

关注

49
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。