Google I/O 2024的人工智能创新-CSDN博客

本文链接：https://blog.csdn.net/2301_79342058/article/details/138890976

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

2024年的Google I/O大会聚焦于该公司在人工智能领域的最新进展，尤其是其Gemini语言模型的更新。以下是此次大会的几个重点亮点：

Gemini AI的全新迭代

Gemini 1.5 Flash：一种更快、更经济的Gemini 1.5版本，专为小型任务如文本摘要和数据抽取而设计。
Gemini 1.5 Pro：在翻译、推理、编程等方面进行了性能升级，现在能够处理长达1500页的文档。
Gemini Nano：为移动设备设计，现支持图像和语音等多模态输入。Pixel 手机将通过 Gemini Nano 获得多模态人工智能能力。一位 Google 员工在活动中解释说：“这意味着你的手机能像你一样理解世界。”他补充说，通过 Google Nano，设备可以响应文本、视觉和音频输入。
该模型利用用户手机中收集的上下文，在设备上本地运行工作负载，这可能会减少一些隐私问题。本地运行的人工智能技术减少了在远程服务器上运行 AI 时可能出现的延迟，并且由于所有工作都在设备上进行，因此即使在没有互联网连接的情况下也能工作
Gemma 2：Google小型语言模型的下一代产品，具备270亿参数。

搜索与工作空间集成

“AI 概览”：将在美国本周推出，为复杂搜索查询提供摘要答案。
Gemini 1.5 Pro：将集成到Gmail、Docs、Slides和Sheets中，提供摘要和洞察。Google首席执行官Sundar Pichai还强调了Gemini在翻译上的改进，并宣布它将向全球所有开发者提供35种语言的服务。在Gmail中，Gemini 1.5 Pro将分析附加的PDF文件和视频，提供摘要等内容，这意味着如果你在度假错过了一长串电子邮件，Gemini也能帮你总结这些内容及其附件

多模态AI能力

Google展示了上传产品视频进行识别的搜索能力。
“音频概览”：可以根据文本输入（如教案）生成音频讨论。
“AI沙盒”：允许用户根据提示从头开始创造音乐和声音。

新的AI硬件和模型

推出了Veo，一种高清视频生成模型，以及改进的文本到图像模型**Imagen 3**。
Google 最近不仅分享了关于其 Lumiere 模型的研究论文，而且还在 Google I/O 2024 上展示了迄今为止最强大的模型——Veo。这款模型能够生成超过一分钟的高质量1080p分辨率视频。根据 Google 的说法，这款模型能更好地理解自然语言，生成更贴近用户视觉的视频。它还能理解“延时摄影”等电影术语，以多种风格生成视频，让用户对最终输出有更多控制权。此外，Veo 是 Google 最先进的文本到视频生成器，尽管目前还未向普通用户开放，但已在 VideoFX 内为选定的创作者提供私人预览，并且公众可加入等候名单。看来，这个视频生成器是 Google 对 OpenAI 文本到图像模型 Sora 的回应，Sora 目前也还未广泛开放，仅向红队成员和少数创意人士提供私人预览
展示了DeepMind构建的原型AI助手**Project Astra**，具有实时交互能力。
Trillium：Google 推出了其第六代 TPU（张量处理单元），名为 Trillium，公司表示其每芯片的计算性能比前代提高了4.7倍。此外，Google 重申，它将成为最早提供 Nvidia Blackwell GPU 的云服务提供商之一，预计在2025年初推出.

Project Astra

Google 展示了其名为 Project Astra 的初步版本，这是一种由 AI 驱动的通用助手。DeepMind 的 CEO Demis Hassabis 表示，这是 Google 版本的日常生活中的 AI 代理。在 Google 发布的视频中，一位用户在 Google 伦敦办公室中移动，手持手机，将摄像头对准各种物体——一个扬声器、白板上的代码，以及窗外的景象，并与应用程序进行自然对话。视频中最令人印象深刻的时刻之一是，该应用正确地告诉用户她之前将眼镜放在哪里，尽管用户之前从未提起过眼镜。视频最后出现了一个转折——当用户找到并戴上那副失踪的眼镜时，我们得知这些眼镜配备了摄像头系统，并能够利用 Project Astra 与用户无缝对话，这可能表明 Google 正在开发一款能与 Meta 的 Ray Ban 智能眼镜竞争的产品

此次活动突出了Google继续将AI技术融入其产品和服务的决心，特别是在多模态功能和现实世界应用方面的重点发展。