谷歌陷入 “汪峰困境”：既生瑜何生亮，好可怜！

最新推荐文章于 2024-05-31 20:46:35 发布

非著名程序员

最新推荐文章于 2024-05-31 20:46:35 发布

阅读量505

点赞数 20

文章标签：人工智能

本文链接：https://blog.csdn.net/loongggdroid/article/details/138979876

版权

loonggg

读完需要

分钟

速读仅需 2 分钟

昨天，也就是北京时间周三（5 月 15 日）凌晨，谷歌举办了年度 I/O 开发者大会，召开了长达两个小时的主题演讲。

毫无疑问发布会的主题就是 AI 。

其实，这次谷歌的发布会的内容还是挺震撼的，发布会上展示的东西也都很优秀。

奈何 OpenAI 的 CEO 阿尔特奥特们这个小子是个 PR 高手。

每一次 PR 的时间点都能够做到非常精准的狙击其他厂商。

想一想，2024 年 2 月 15 日，谷歌对外重磅发布了多模态大模型 Gemini 1.5 Pro，官方测试结果显示，这个最高支持 100 万 tokens 的多模态大模型，性能远超 GPT-4 Turbo。

然而，就在同一天，OpenAI 发布了文生视频大模型 Sora。

Sora 一出来，有一种横扫千军的架势，直接变成了头版头条，把属于谷歌的营销势头直接给掐灭了。

而这次呢？就在谷歌举办了年度 I/O 开发者大会的前一天，OpenAI 开了一个小型的春季发布会，仅仅 26 分钟的发布会，就让本属于谷歌惊艳的产品，变得非常普通。

所以，你不得不说，真的有点同情谷歌了，有一种既生瑜何生亮的感觉，谷歌估计也快被气吐血了。

妥妥的就像是我们国内音乐界的汪峰，每次都被抢走了头条。

尤其是这次，我都怀疑谷歌出了内奸和叛徒。

为什么这么说呢？比如，这次发布会，谷歌推出了自己的 AI 语音助手 Astra ，Astra 可以通过摄像头识别物体，并且用自然语言交流。

根据谷歌的说法，“Astra”是具有高级视觉和对话响应的智能体项目，即开发能在日常生活中提供帮助的通用 AI 智能体。为了做到真正实用，智能体需要能够像人一样理解周围复杂多变的环境并做出反应——它需要能接收并记忆所见所闻，从而了解上下文信息并采取行动。

这跟前一天 OpenAI 的春季小型发布会上用摄像头跟人交流的 GPT-4o 很类似，同时 OpenAI 还发布了一个视频，如何通过摄像头结合 GPT-4o 帮助盲人打车，给盲人带路以及给盲人介绍周围环境的视频。

这种功能的巧合性，真的是让我怀疑谷歌内部出了叛徒。

当然了，我当时看到 OpenAI 发布的那个视频的时候，我就想，盲人举着手机多不方便，如果将 GPT-4o 安装到智能眼镜当中，让盲人戴着，那真的是功德无量。

这次发布会，谷歌做到了。因为在演示中，用户佩戴的是谷歌的智能眼镜。

当然了，除了谷歌发布会发布了 Astra ，还有很多亮点值得我们关注。

我简单给大家总结一下。

1、Gemini 1.5 Pro 将向所有的开发者开放，能处理 100 万 Tokens 的长文本。今年晚些时候，这个数量会增加到 200 万，这意味着什么呢？大概能支持处理长达 2 小时的视频，或者 22 小时的音频，超过 6 万行代码或者超过 140 万个单词。

谷歌 CEO 皮查伊强调了 Gemini 在跨语言方面的改进，它将以 35 种语言向全球所有开发人员提供。皮查伊表示，Gemini 1.5 Pro 可以分析 PDF 和视频以提供摘要，这意味着当用户假期归来后，模型可以将电子邮件和附件一起进行总结。

2、专为在智能手机上运行而设计的 Gemini Nano 也从纯文本输入扩展到可以图片输入。谷歌表示，“手机将能通过文字、图片、视频、音频，理解用户的世界。”并且整个过程都是在本地运行，不会引发隐私泄露。

3、谷歌还推出了 Gems 功能，用来创建机器人，相当于 OpenAI 的 GPTs 或者是国内的智谱智能体、Kimi 智能体。

4、谷歌也推出了自己的视频生成模型“Veo”，可以根据文字、图片和视频的提示，生成各种风格的高质量 1080P 视频。

据介绍，Veo 可以更好地理解自然语言，从而生成更能代表用户视觉的视频。它还能理解“延时拍摄”等电影术语，以生成各种风格的视频，并让用户更好地控制最终输出。

当然了，与 OpenAI 的 Sora 一样，目前还没公开，只有内部少数人才能体验。

我们只能干看，却不能用。

在我看来，现在公开这个消息是对的，毕竟，Sora 发布过去了三个多月了，用户也是摸不到，如果 Veo 和 Sora 同时发布，甚至提早能公开，谷歌说不定能扳回一局。

5、谷歌还推出了新一代的图像生成模型“Imagen 3”，根据公司的说法该模型可生成迄今为止最高质量的图像，图像中具有更多细节和更少伪影，有助于创建更真实的视觉体验。

6、谷歌搜索要改版了，终于对自己的核心业务动刀子了。

从本周开始，谷歌搜索引擎将在美国推出“AI 概览”（AI Overviews）的功能，搜索引擎会直接归纳总结搜索结果。

同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”搜索解决方案的新搜索形式。

根据现场演示，搜索引擎具备多步骤推理的能力，涉及到复杂的推理或者规划场景，AI 就可能会生成答案，而不是简单地推几个链接。例如寻找一个瑜伽教室，同时展示新手优惠报价，和距离特定位置的步行时间。这个 AI 搜索引擎助手，还能介绍食谱、安排行程，以及接受视频形式的提问。

许多人可能都曾经历过花费数小时滚动浏览网页信息流来查找想要搜索的图片，对此，谷歌推出了 AI 解决方案。借助 Gemini，用户可以在 Google Photos 中通过对话提示来查找他们寻找的图像。

所以，也就是谷歌拥有众多的产品，当通过 AI 将所有的产品链接起来，能够解决更复杂的场景。

例如你让谷歌帮你规划一个短途旅游行程，然后找到值得去吃的餐厅，再直接用谷歌地图导航。这是因为谷歌拥有的不同领域的数据太庞大了，相当于百度可以打通美团加点评加携程加抖音加高德，从产品能力本身，这个还是非常值得期待的。

7、最后，当然了，谷歌宣布在自己的全家桶产品当中都加入 AI 功能。

8、还有我刚才说的 Astra 。

以上就是对谷歌 I/O 开发者大会的总结，也是我们值得关注的一些点。

最后，欢迎大家加入我的知识星球「AIGC 掘金研习社」，里面有很多 AI 的玩法和落地应用场景，包括有 ChatGPT 的教程。

只需要 49 块钱可以享受全年各种教程更新的福利，相比于市面上的星球绝对超值。教程内容涵盖：ChatGPT ，AI 绘画，AI 音乐制作，国产 AI 各种玩法和教程，还有 AI 副业变现内容等各种落地应用场景。

一年 49 元，平均一条 2 毛钱。绝对超值，目的就是带着大家入门。

现在星球搞活动，立减 50 元，只需要 49，后期随着加入的人越多，价格可能上涨哈，早学早享受。

持续干货分享，绝对超值。

点击下方公众号卡片，关注我

在公众号对话框，回复关键字 “1024”

有惊喜

非著名程序员

关注

20
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
谷歌陷入 “汪峰困境”：既生瑜何生亮，好可怜！

loonggg读完需要5分钟速读仅需 2 分钟昨天，也就是北京时间周三（5 月 15 日）凌晨，谷歌举办了年度 I/O 开发者大会，召开了长达两个小时的主题演讲。毫无疑问发布会的主题就是 AI 。其实，这次谷歌的发布会的内容还是挺震撼的，发布会上展示的东西也都很优秀。奈何 OpenAI 的 CEO 阿尔特奥特们这个小子是个 PR 高手。每一次 PR 的时间点都能够做到非常精准的狙击其他厂商。想一想...
复制链接

扫一扫