重大突破！OpenAI 发布语音Agent！

领驭科技

于 2025-03-21 14:09:49 发布

阅读量305

点赞数 7

文章标签：其他

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Leinwin/article/details/146419554

版权

OpenAI 于今日凌晨 1 点举行技术直播，发布三款专用于开发语音 AI 智能体的全新语音模型，并推出一个新网站展示这些新功能。

三款语音模型介绍

GPT-40 Transcribe：高性能语音转文本模型

基于最新语音模型架构，经过海量音频数据训练，可处理复杂语音信号并准确转换为文本。其训练数据规模庞大，涵盖多种语言和方言，在不同语言环境下表现出色。

GPT-4 Mini Transcribe：轻量级语音转文本模型

通过模型压缩技术，在保持较高转录性能的同时大幅减小模型大小，提高运行速度并降低资源消耗。适合在移动设备或嵌入式系统等资源受限的设备上运行，也能满足实时性要求较高的场景。

GPT-40 Mini TTS：文本转语音模型

不仅能将文本转换为自然流畅的语音，还可通过指令控制语音的语调、情感和风格，根据不同情境和用户需求调整表达方式。采用先进语音合成技术，生成高质量、自然逼真的语音输出，支持多种语言，能生成不同性别、年龄和口音的语音，满足不同地区和文化背景用户的需求。

微信图片_20250321135621.png

API 与 SDK 重大更新

语音转文本 API 更新

新增强大的 streaming 模式，可实时处理连续音频流并返回文本响应，适用于实时语音对话系统、语音会议转写等场景。同时，API 集成噪声消除技术和语义语音活动检测器，前者可过滤背景噪音，后者能合理分块处理音频，避免处理不完整语音信息，让开发者更专注于应用开发。

微信图片_20250321135634.png

Agents SDK 更新

采用模块化设计，将语音转文本、文本处理和文本转语音等功能模块化，开发者可根据需求灵活组合，构建特定应用场景的语音 Agent 系统。这种模块化设计提高了开发效率，增强了系统可扩展性和可维护性，方便开发者对 Agent 系统进行升级优化。通过 Agents SDK，开发者可在已有文本 Agent 基础上，添加少量代码实现语音交互功能，SDK 提供丰富接口和工具，帮助处理语音输入、文本处理和语音输出等环节，减少开发工作量和复杂性。SDK 在性能和可靠性方面进行了优化，支持实时音频流处理，能够快速响应用户指令，提供流畅语音交互体验，还集成了噪声消除、语音活动检测等功能，提高语音识别准确性和系统稳定性，即使在嘈杂环境中也能准确捕捉并处理用户语音输入。

目前，这些语音模型已经可以在 API 和 SDK 中使用，为开发者提供了强大的工具来构建更加智能、高效和人性化的语音 AI 智能体。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。