在刚刚过去的谷歌I/O 2024大会上,谷歌推出了一系列令人眼花缭乱的AI更新和新功能,全面反击OpenAI最新的GPT-4o。
Gemini时代的开启
大会一开始,谷歌CEO Sundar Pichai宣布:“我们已经完全进入了Gemini时代。”
Gemini是谷歌最新的多模态AI模型,它的更新版本Gemini 1.5 Pro将上下文窗口扩大到了200万tokens,使得它可以处理更长的文本和复杂的多媒体文件。
Pichai表示,谷歌正处于AI平台转变的早期阶段,未来充满了机遇。
新版本Gemini Live还支持实时、深度语音对话,可以通过摄像头观察并分析环境,然后给出回应。这一点和chatgpt4-o简直一模一样
面对OpenAI的挑战,谷歌推出了Project Astra,这是一款日常生活中的AI代理。
Astra不仅可以理解实时音频和视频,还能进行推理并给出反馈。
例如,一位用户可以通过手机摄像头让AI识别办公室环境,并提问相关问题,AI代理能帮助用户完成诸如退货等操作。
虽然目前仍处于原型开发阶段,但Astra已经展示了它在日常生活中潜在的巨大应用前景。
Gemini Live和Gemini Nano
Gemini Live是谷歌推出的一款语音对话功能,旨在使人们与AI的交流更加自然。用户可以通过它用语音与Gemini交流,AI可以根据用户的指令进行实时调整。
Gemini Nano则是支持多模态的轻量级版本,能够处理文本、图片和音频,适用于更广泛的应用场景。
AI生成视频工具Veo
几个月前,OpenAI展示了Sora视频生成工具,谷歌不甘示弱,推出了自己的视频生成工具Veo。
Veo可以生成一分钟长的1080p视频,用户可以通过文本提示生成带有特效的视频。这一功能不仅展示了谷歌在视频生成方面的技术实力,也为未来的视频创作提供了无限可能。
将Gemini融入Android和Google Workspace
谷歌将Gemini与Android系统深度融合,使用户在浏览手机时,AI可以理解和预测用户的需求。
此外,Gemini还被整合到Google Workspace中,使其更加智能。例如,在Gmail中,Gemini可以总结所有关于学校的电子邮件,在Google Meet中,它可以总结会议重点。
长期以来,人们认为谷歌在AI领域处于跟随者的位置,但这次I/O大会展示了谷歌在AI方面的强大实力。
从超长的上下文窗口到多模态的AI助手,再到AI生成的视频工具,谷歌在多个方面展现了其技术优势。与OpenAI的发布会相比,谷歌的发布会更注重展示产品的实际应用,这也使得谷歌的AI技术更具吸引力。
结语
谷歌在I/O 2024大会上的表现无疑展示了其在AI领域的雄心和实力。从多模态AI模型Gemini,到日常生活中的AI代理Project Astra,再到AI生成视频工具Veo,谷歌正在全面提升其AI技术,并将其应用到人们的日常生活中。
发布会视频链接:https://twitter.com/i/status/1790542872711667841