2024年谷歌I/O开发者大会的100条总结！

最新推荐文章于 2024-08-20 17:26:09 发布

AI信息Gap

最新推荐文章于 2024-08-20 17:26:09 发布

阅读量3.3k

点赞数 29

文章标签：人工智能 ai chatgpt gpt OpenAI

本文链接：https://blog.csdn.net/weixin_40774379/article/details/138984160

版权

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

美国东部时间5月14日，谷歌2024年I/O开发者大会在加州山景城海岸线露天剧场如期举行。对于这个时间点，大家有没有点熟悉的感觉？没错，就在前一天，5月13日，OpenAI举办了一场直播发布会，发布了GPT-4o模型，吸引无数人的注意力。求问谷歌当时的心理阴影面积？

虽然比OpenAI迟了一天发布，缺失了不少的聚光灯，但这次的谷歌I/O大会还是很有看点的，特别是AI方面。

关于谷歌I/O大会

谷歌I/O大会是谷歌公司每年举办的标志性活动，自2008年起，它已成为全球开发者、企业家、科技爱好者和媒体关注的焦点。I/O意为“开放中创新”（Innovation in the Open），强调谷歌在开放环境中推动技术创新的理念（也曾被理解为计算机中的基本概念：“输入Input/输出Output”）。

最初，谷歌I/O大会的主要目的是为开发者提供一个交流平台，展示谷歌在软件和硬件方面的最新进展。随着时间的推移，这一大会的规模和影响力逐渐扩大，吸引了越来越多的关注。在谷歌I/O大会上，谷歌通过主题演讲、技术会议、代码实验室和社交活动，向与会者介绍其最新的产品更新和技术进步。例如，Android操作系统的多个重要版本、Google Assistant、Google Photos等产品和服务都在历届I/O大会上首次亮相。大会还为开发者提供了与谷歌工程师直接交流的机会，帮助他们更好地理解和应用谷歌的技术，共同探讨和体验谷歌在搜索、移动操作系统、云计算、人工智能等领域的最新发展。

此外，谷歌I/O大会也通过在线直播的形式向全球观众开放，确保了更广泛的参与度。近年来，大会的内容不仅限于技术创新，还包括了对隐私保护、数据安全和人工智能伦理等社会责任和可持续发展议题的讨论。谷歌希望通过这些讨论，推动技术在社会中的负责任应用。

2024谷歌I/O大会宣布的100件事（速览版）

AI时刻和模型进展

Gemini 1.5 Flash发布：一种轻量级模型，设计为快速且高效地大规模服务。1.5 Flash是API中最快的Gemini模型。
1.5 Pro模型改进：1.5 Pro在广泛任务上的整体性能得到了显著提升。
公开预览：1.5 Pro和1.5 Flash现已在Google AI Studio和Vertex AI上提供公开预览，具有100万token上下文窗口。
2百万token上下文窗口：1.5 Pro还通过等待名单（waitlist）在Google AI Studio和Vertex AI上向开发者提供2百万token的上下文窗口。

Project Astra：分享了未来AI助手的愿景。
Trillium TPU发布：第六代定制AI加速器，性能最强的TPU。
Trillium TPU性能提升：相比于TPU v5e，Trillium TPU的峰值计算性能提高了4.7倍。
能源效率提高：Trillium TPU比TPU v5e的能源效率高出67%以上。
NotebookLM的音频概览原型展示：使用上传的材料集合为用户创建个性化的口头讨论。
Grounding with Google Search：连接Gemini模型与世界知识，涵盖广泛话题和最新互联网信息的工具，现在在Vertex AI上普遍可用。
增加音频理解：Gemini API和AI Studio中增加了音频理解功能，使Gemini 1.5 Pro能够跨图像和音频进行推理。
多模态功能：从Pixel开始，使用多模态功能的Gemini Nano应用能够通过视觉、听觉和口语理解世界，而不仅仅是文本输入。

生成媒体模型和实验

Imagen 3发布：质量最高的图像生成模型，能够理解自然语言和提示背后的意图，生成高细节、逼真的图像。
Imagen 3细节处理：能从更长的提示中获取小细节，生成比之前模型更少视觉伪影的图像。
文本渲染改进：Imagen 3是迄今为止在文本渲染方面表现最好的模型。
Imagen 3的测试员注册：Imagen 3已经在ImageFX中向信任测试员推出，并可注册等待名单。
夏季上线Vertex AI：Imagen 3将于今年夏天在Vertex AI上线。
Veo视频生成模型：质量最好的视频生成模型，能够生成1080p分辨率的视频，时长超过一分钟，涵盖多种电影和视觉风格。
Veo功能整合到YouTube Shorts：未来Veo的一些功能将整合到YouTube Shorts和其他产品中。
艺术家合作：展示了Veo如何帮助艺术家创作，包括唐纳德·格洛弗与Veo合作的电影项目。
Music AI Sandbox发布：一套音乐AI工具，可从零创建新的器乐部分，在不同音轨之间转换风格等。
Infinite Wonderland项目：艺术家与谷歌创意团队合作，微调AI模型，以无尽地重新构想《爱丽丝梦游仙境》的视觉世界。
VideoFX工具：使用谷歌DeepMind的生成视频模型Veo，将想法变成视频片段。
Storyboard模式：VideoFX还带有Storyboard模式，允许逐场迭代并为最终视频添加音乐。

ImageFX编辑控制：添加了更多编辑控制功能，可以通过刷图像添加、移除或更改元素。
Imagen 3在ImageFX中应用：ImageFX将使用Imagen 3解锁更多的逼真度，拥有更丰富的细节和更少的视觉伪影。
MusicFX的DJ模式：帮助混合节拍，通过结合不同的流派和乐器，利用生成AI将音乐故事带入生活。
ImageFX和MusicFX的全球上线：本周，ImageFX和MusicFX在超过100个国家通过Labs上线。

Gemini应用的新功能

Gemini 1.5 Pro进入Gemini Advanced：为高级订阅者带来1百万token的上下文窗口，可以理解1500页的PDF。
最大的聊天机器人上下文窗口：这意味着Gemini Advanced拥有世界上商业可用的最大上下文窗口。
文件上传功能：可以通过Google Drive或直接从设备上传文件到Gemini Advanced。
数据分析功能：即将帮助分析上传的数据文件（如电子表格），快速发现洞见并生成图表。
旅行计划功能：新的旅行计划功能不仅提供建议活动清单，还会为用户创建个性化的行程安排。

Gemini Live对话功能：新的移动优先对话体验，使用最先进的语音技术，帮助用户进行更自然、直观的口语对话。
多种自然语音选择：Gemini Live允许选择10种自然语音响应，可以按照自己的节奏说话或在中途打断并提问。
Google Messages中的Gemini：可以在同一个应用中与朋友聊天和与Gemini聊天。
创建自定义Gem：高级订阅者可以创建自定义版本的Gemini，只需描述所需功能和响应方式，Gemini就会生成特定需求的Gem。
更多谷歌工具连接：包括Google Calendar、Tasks、Keep和Clock等工具将与Gemini连接。

搜索功能改进

新的Gemini模型定制版：用于谷歌搜索，将Gemini的高级功能（包括多步骤推理、计划和多模态）与最佳搜索系统结合。
AI概览：在美国开始向所有用户推出AI概览，更多国家将陆续开放。

多步骤推理功能：即将推出英语查询的多步骤推理功能，无需多次搜索即可回答复杂问题。
调整AI概览：可以简化语言或更详细地分解，以便新手了解主题或深入了解问题。
搜索计划功能：今年晚些时候在Search Labs推出，如餐饮和旅行计划，随后将涵盖更多类别。
视频问题回答：搜索可以处理复杂的视觉问题，解释下一步并提供资源和AI概览。
生成AI搜索结果页面：在搜索新创意时，生成AI将创建一个组织良好的搜索结果页面，如餐饮、食谱、电影、音乐、书籍、酒店和购物等。

Workspace和Photos中的Gemini模型帮助

Gemini 1.5 Pro进入Workspace：Gmail、Docs、Drive、Slides和Sheets的侧边栏中现已提供Gemini 1.5 Pro。
邮件摘要：Gmail侧边栏将能够总结邮件，提取最重要的细节和操作项。
Gmail移动应用的新功能：将支持上下文智能回复和Gmail问答。
西班牙语和葡萄牙语支持：Gmail和Docs中的帮助写作功能即将支持西班牙语和葡萄牙语。
Drive附件组织：今年晚些时候可在Labs中请求Gemini自动组织Drive中的邮件附件，生成数据表并分析数据。
Google Photos的新功能：新的实验功能Ask Photos使用Gemini模型，使查找特定记忆或回忆图库信息更容易。

旅行照片高光集：可以使用Ask Photos创建最近旅行的高光集，并自动生成个性化的社交媒体标题。

Android进展

多模态功能的Gemini Nano：今年晚些时候在Pixel上推出，不仅处理文本输入，还能理解视觉、声音和口语。
Talkback改进：Gemini Nano改进了Talkback功能，帮助盲人和低视力用户更好地与设备交互。
诈骗保护功能：新的诈骗保护功能将使用Gemini Nano的设备内AI检测诈骗电话，保护隐私。
Circle to Search扩展：目前在超过1亿台Android设备上可用，年底前将翻倍。
Gemini图像生成功能：可以在Gmail、Google Messages等应用中创建和拖放生成图像，或询问YouTube视频内容。
“问这个PDF”功能：Gemini Advanced用户可以快速从PDF中获取答案，而无需滚动多个页面。
学生作业帮助：Circle to Search现在可以从某些Android手机和平板上直接提供作业帮助。
Circle to Search新功能：今年晚些时候，Circle to Search将能够解决涉及符号公式、图表和其他复杂问题。

Android 15第二个测试版：引入了防盗检测锁和私人空间等新功能。
防盗检测锁：利用强大的谷歌AI感知设备被抢劫，并迅速锁定手机上的信息。
私人空间：用户可以选择将应用程序保存在一个需要额外身份验证的独立空间中。
隐藏私人空间：如果单独的锁屏还不够，用户可以选择完全隐藏私人空间的存在。
Google Play Protect新功能：将利用设备内AI帮助检测试图隐藏其操作以进行欺诈或网络钓鱼的应用程序。
日本RCS消息服务：为日本带来更新的消息体验。
数字通行证：在美国，用户可以创建仅包含文本的数字通行证，并将其轻松添加到Google Wallet中以便快速访问。
增强现实内容：谷歌地图中将直接提供增强现实内容，为与三星和高通合作构建的Android扩展现实（XR）平台打下基础。
车载娱乐：在带有Google内置功能的选定汽车上观看Max和Peacock的剧集或开始游戏《愤怒的小鸟》。
Google Cast支持：即将为Rivian汽车提供Google Cast支持，可以轻松将视频内容从手机投放到车上。
Wear OS 5电池优化：例如，运行户外马拉松时的电量消耗将比Wear OS 4少20%。
Wear OS 5新数据类型：健身应用程序将支持更多数据类型，如地面接触时间、步幅和垂直振荡。
Google TV个性化描述：通过Gemini模型，为Google TV和其他Android TV OS设备提供个性化的AI生成描述。
补全或翻译描述：AI生成的描述还将补全或翻译电影和节目的缺失描述。
Fast Pair连接：自推出以来，用户已经进行了超过10亿次Fast Pair连接。
Find My Device应用支持：本月晚些时候，Fast Pair将支持Chipolo和PebblePee的蓝牙追踪器标签，以便在Find My Device应用中找到物品。

开发者进展

Gemini API开发者竞赛：邀请开发者参与发现最有用和最突破性的AI应用，奖品是一辆电动改装的1981年DeLorean。
PaliGemma发布：第一个视觉语言开放模型，优化用于视觉问答和图像字幕。
Gemma 2预览：基于全新架构的下一版本，将包括一个27B参数实例，性能优于两倍大小的模型，并在单个TPU主机上运行。

Android Studio支持：Gemini模型现在可帮助开发者在Android Studio、IDX、Firebase、Colab、VSCode、Cloud和IntelliJ中提高生产力。
Gemini 1.5 Pro进入Android Studio：具有大上下文窗口，带来更高质量的响应，并解锁多模态输入的用例。
Google AI Studio扩展：现已在包括英国和欧盟在内的200多个国家提供。
Gemini API新功能：支持并行函数调用和视频帧提取。
上下文缓存功能：即将推出的Gemini API新功能，可缓存频繁使用的上下文文件，以降低成本。
Kotlin多平台支持：Android现在为Kotlin多平台提供一流支持，帮助开发者跨平台共享应用程序的业务逻辑。
可调整大小的模拟器和Compose UI检查模式：Firebase提供的Android设备流媒体等新产品，帮助开发者构建所有形式因素的应用程序。
Chrome 126内置Gemini Nano：将从Chrome桌面客户端开始提供。
View Transitions API：多页应用程序的过渡API现已可用，开发者可以轻松构建流畅的应用程序导航。
Project IDX开放试用：为全栈多平台应用程序提供的新集成开发者体验现已开放试用。
Firebase Genkit发布：Beta版使开发者更容易在应用程序中构建生成AI体验。
Firebase Data Connect：开发者现在可以使用SQL与Firebase（通过Google Cloud SQL）结合使用，减少开发者需要编写的应用代码。
AI技术与研究深度对话：与James Manyika、Jeff Dean和Koray Kavukcuoglu讨论支持AI的技术和研究。