AIbase 基地 2025 年 6 月 5 日消息,谷歌近日更新的 Gemini2.5 版本在 AI 音频对话和生成技术方面实现重大突破。作为多模态 AI 系统,Gemini2.5 可原生理解和生成文本、图像、音频、视频及代码,其新增的实时音频对话功能与可控文本转语音技术,显著提升了人机交互的自然度与灵活性。
一、实时音频对话:自然交互的全面革新
Gemini2.5 的实时音频对话功能深度模拟人类交流特性,实现了低延迟、高表现力的互动体验:
- 自然对话体验:提供高质量语音交互,精准还原语调、韵律及情感变化,对话流畅自然,延迟极低。
- 风格自定义控制:用户可通过自然语言提示调整对话风格,包括选择口音(如英式、美式英语)、语气(如欢快、严肃),甚至以耳语方式交流。
- 工具集成与实时响应:对话中可调用 Google 搜索等工具获取实时信息,同时能识别背景噪声并忽略无关对话,确保在合适时机作出准确回应。
- 多模态协同能力:支持实时音频和视频流,可与用户讨论视频内容或屏幕共享信息,增强交互的场景适应性。
- 全球化语言支持:覆盖 24 种以上语言,并能在同一对话中灵活切换,满足多语言用户需求。
- 情感与逻辑双重升级:根据用户语调识别情感差异并作出反应,同时凭借强大推理能力提升复杂问题对话的连贯性。
二、可控文本转语音技术:精准塑造音频表达
Gemini2.5 的文本转语音(TTS)技术实现了从 “生成语音” 到 “控制表达” 的跨越:
- 动态表现优化:可生动朗读诗歌、新闻、故事等内容,支持特定情感(如悲伤、兴奋)和口音的演绎,适配多样化场景需求。
- 细节参数调节:用户可自由控制语音速度,并精准校准特定词汇的发音,确保内容传达的准确性。
- 多角色对话生成:能根据文本生成双人对话音频,为播客、视频游戏等场景提供更具吸引力的内容形式。
- 多语言音频生成:支持 24 种语言的音频输出,轻松实现全球化内容创作。
三、技术安全与开发者生态
为确保 AI 生成内容的透明性,Gemini2.5 在音频输出中嵌入SynthID 水印技术,便于识别 AI 生成内容。开发者可通过 Google AI Studio 或 Vertex AI 的 Gemini API,利用原生音频功能构建互动应用,例如:
- 在 Google AI Studio 试用实时音频对话,开发智能客服、语音助手等应用;
- 通过可控文本转语音技术生成公告、故事 narration 或游戏角色语音,推动音频内容创新。
Gemini2.5 的发布标志着 AI 交互从 “文字为主” 向 “全模态自然交流” 的重要跨越,其音频功能的灵活性与可控性,为教育、娱乐、客服等领域带来了更具沉浸感的应用可能。