AI跟踪报道第42期-新加坡内哥谈技术-本周AI新闻：神仙打架超乎你的想象-CSDN博客

本文链接：https://blog.csdn.net/2301_79342058/article/details/139026638

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

点击下面视频观看本周AI更新：

本周AI新闻：神仙打架超乎你的想象

想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅: https://rengongzhineng.io/

1) https://blog.google/technology/ai/google-io-2024-100-announcements/

2) GPT-4o demo: https://www.youtube.com/watch?v=RI-BxtCx32s

3) Google与哈佛大学的科学家团队共同创造了一张人脑中一个极小部分的精细地图: https://h01-release.storage.googleapis.com/gallery.html

在Google I/O 2024大会上，全球科技界翘首以盼，见证了Google最新的创新成果，预示着人工智能新时代的到来。此次大会的亮点是突破性的Gemini AI模型，一款多模态奇迹，能够处理文本、图像、视频、代码等多种数据类型。

随着人工智能领域的不断发展，像Google和OpenAI这样的巨头不断挑战可能的极限。在这场变革的前沿，Google的Gemini AI和OpenAI的ChatGPT 4o成为焦点，吸引了全球开发者和研究人员的关注。在这篇比较分析中，我们将深入探讨这两款强大AI模型的关键差异及其对未来AI发展的影响。

在兴奋和期待中，Q3 Technologies正准备解读这些进展的意义，并制定利用这些技术实现变革性解决方案的路线图。

Gemini AI 的进展

Google推出了Gemini 1.5 Pro，拥有庞大的1M令牌上下文窗口，现已向全球开发者和消费者开放。未来的预览版将扩展到2M令牌，承诺在文本、图像、视频、代码等方面提供前所未有的能力。

这个AI模型可以无缝整合个人信息（如航班和酒店预订）与公开信息，快速构建多日行程。Google吹嘘其AI聊天机器人模型超越了传统聊天机器人，能够将用户收件箱中的个人数据与公开信息结合。例如，一个示例提示可能是：“我和家人要去迈阿密度过劳动节，我的儿子喜欢艺术，我的丈夫想吃新鲜海鲜。你能从我的Gmail中提取航班和酒店信息并帮我规划周末行程吗？”

Gemini利用用户邮件中的航班和酒店信息，制作定制行程。此外，该模型还利用Google Maps找到附近的餐厅和文化景点，并根据指定标准（如饮食限制或偏好）进行优化。Google宣布，这些增强的行程规划功能将在未来几个月内整合到Gemini Advanced中。

对于Q3 Technologies来说，Gemini AI的这些进展为我们提供了令人兴奋的机会，可以利用尖端技术为客户提供创新解决方案。

ChatGPT 4o 的特点

在GPT-4o时代之前，通过语音模式与OpenAI ChatGPT互动存在显著延迟，GPT-3.5平均为2.8秒，GPT-4则为5.4秒。这种延迟源于语音模式依赖于三个独立模型的管道：一个用于音频转文本，另一个用于GPT-3.5或GPT-4的文本处理，第三个用于文本转音频。然而，这种设置存在局限性，因为主要的AI聊天机器人GPT-4无法直接访问如语调、多位说话者或背景噪音等重要信息，也无法传达笑声或情感等细微差别。

GPT-4o出现了，这是一项在对话式AI领域的范式转换。OpenAI通过在文本、视觉和音频模态上端到端训练单一模型，消除了中间模型的需求，简化了语音交互体验。

这种创新的影响是深远的。通过将文本、视觉和音频处理整合到统一模型中，GPT-4o提供了前所未有的自然和直观的人机交流潜力。然而，作为OpenAI首次将这些模态结合起来的尝试，GPT-4o的能力和限制还有很多需要探索。

AI 代理和集成

Google I/O 2024的另一大亮点是AI代理，如Project Astra，革新了用户交互和支持系统，通过视频和语音输入。此外，Google展示了更深度的Gemini生态系统集成，涵盖Google Workspace、Android和搜索功能。

公司的主题演讲展示了旗舰Gemini AI模型的新版本Flash，与OpenAI新发布的速度更快的GPT-4o相竞争。

此外，Google透露了其搜索功能的改造计划，推出AI概览，提供复杂查询的简明摘要，并引入Ask Photos助手，可以检索诸如识别车牌等存档信息。

Android展示了一项诈骗检测功能，能够监控电话以防潜在的欺诈活动，而Chrome则宣布集成Gemini Nano，启用本地处理的AI功能。

在大会的第二天，Google进一步介绍了Android 15的新测试版及其移动操作系统的其他即将更新的功能。

在硬件方面，Google电视正演变为家庭中枢，新的Home API将使应用开发者能够访问一系列自动化工具。像Max和Peacock这样的流媒体应用即将在Android Auto上推出，而Wear OS 5则承诺为智能手表提供更长的电池寿命。这些集成具有巨大的潜力，可以简化工作流程，提高生产力，并在各平台上提供无缝的用户体验。

生成式AI模型

Veo和Imagen 3成为Google生成式AI开发服务的强大新增工具，提供了新的创意表达和内容生成途径。Veo能够根据文本提示创建高清晰度视频，而Imagen 3则支持文本到图像的生成。

AI开发服务的影响

Gemini AI和ChatGPT 4o的出现标志着AI开发服务新时代的到来，多模态能力和自然语言理解的融合解锁了新的可能性。开发者和研究人员现在拥有强大的工具，可以革新从医疗、金融到娱乐等各个行业。在探讨这些进步的影响时，考虑伴随这些变革性技术而来的伦理、社会和技术挑战是至关重要的。

Google I/O 2024标志着AI发展的一个重要时刻，Gemini处于前沿。Google的Gemini AI和OpenAI的ChatGPT 4o代表了推进人工智能的两种不同但互补的路径。Gemini在多模态能力上表现出色，而GPT 4o在自然语言理解和生成方面表现卓越。通过理解和利用每种模型的优势，开发者可以解锁前所未有的创新机会，创造真正塑造未来的AI驱动解决方案。