OpenAI 实时 API 震撼发布：语音应用的“ChatGPT”时刻来临！

最新推荐文章于 2025-04-02 18:24:37 发布

AI科技大本营

最新推荐文章于 2025-04-02 18:24:37 发布

阅读量873

点赞数

文章标签： chatgpt 人工智能语音识别

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg4NDQwNTI0OQ==&mid=2247582665&idx=1&sn=01f0bc5a2d6148aaa8b8e4aa1f29d24c&chksm=ce05cebfa6c4765614da58a3e8389c7afcef8758d284babf5245d725224afc775298cd009d06&scene=126&sessionid=0

版权

作者 | Eric Harrington

出品丨AI 科技大本营（ID：rgznai100）

北京时间 10 月 2 日凌晨，OpenAI 在他们的第二次 DevDay（开发者日）上丢了一颗重磅炸弹：实时 API（Realtime API），使开发者能够使用先进的语音到语音模型进行开发。目前这项技术面向所有付费开发者开放了公共测试版，能够帮助开发者创建低延迟、多模态的应用体验，这些体验几乎可以媲美真人之间的交流。

当前 OpenAI 还没上传本次 DevDay 的录播，但根据一些博主的总结，本次 Sam Altman 的对话应该也是比较有料的，比如画饼“AGI 很快就会到来”，或是谈及 ChatGPT 的高级语音模式等等，我们会在明天再发布一篇关于这场对话的全程翻译。

回到正题，实时 API 的音频功能由全新的 GPT-4o 模型 gpt-4o-realtime-preview 提供支持，且将在未来几周内集成到 Chat Completions API 中，作为一个新的模型 gpt-4o-audio-preview。通过 gpt-4o-audio-preview，开发者可以输入文本或音频到 GPT-4o，并接收文本、音频或两者结合的回应。

不过也有很多人吐槽，“通往新时代的价格太贵了”。实时 API 和前段时间发布的 o1 模型一样，把不同的 Token 进行了“分类定价”，比如 o1 发布时就创造了一个“推理 Token”的概念，而现在实时 API 则使用文本 Token 和音频 Token：文本输入 Token 的价格为每 100 万 Token / 5 美元，输出 Token 的价格为每 100 万 Token / 20 美元。音频输入的价格为每 100 万 Token / 100 美元，输出价格为每 100 万 Token / 200 美元。这相当于大约每分钟音频输入 0.06 美元和每分钟音频输出 0.24 美元。未来 Chat Completions API 中的音频功能也将采用相同的定价。

实时 API 这项技术的核心在于其支持自然语音对话的功能，这一点与 ChatGPT 最近终于开放的高级语音模式相仿。实时 API 提供了六种预设的声音选项，让开发者可以根据不同的应用场景和用户喜好来定制自己的应用。这一进步意味着，从前需要组合多种模型才能勉强实现的自然对话，现在只需一种工具即可轻松搞定。

过去的语音助手体验充满了各种挑战。开发者不得不面对一系列复杂的过程，比如使用 OpenAI Whisper 这样的自动语音识别模型来转录音频，接着将转换后的文本传递给文本模型进行推理或理解，最后再通过文本到语音模型生成语音回复。这种方法不仅容易失去对话中的细微差别，比如情绪、重音和口音，而且多步骤的处理也造成了显著的延迟，使得用户输入与 AI 响应之间存在明显的时间差，破坏了对话的自然感。

而实时 API 则以一种“优雅”的方式解决了这些问题。通过与 GPT-4o 建立持久的 WebSocket 连接，实时 API 实现了无缝的通信流，可以实时处理打断和调整，就像两个人在面对面交谈一样。

官方给出了两个合作案例，首先是 Healthify，这是一款营养和健身指导应用程序，它使用实时 API 实现与其 AI 教练 Ria 的自然对话，同时在需要个性化支持时让人类营养师参与进来：

Healthify 的老板感叹道，以前需要一周才能搞定的配置工作现在只需要三天。

然后还有 Speak，这是一款语言学习应用程序，它使用实时 API 来支持角色扮演功能，鼓励用户用新语言练习对话：

随着技术的进步，实时 API 还会在越来越多的应用中发挥作用。从提供更具同理心和响应能力的虚拟治疗师，到能够管理复杂任务的类人理解能力的个人助手，这些应用的可能性仅受限于开发者的想象力。API 还有望在语言学和认知科学等领域发挥重要作用，为人类与 AI 通信的本质提供新的见解。

实时 API 的另一大亮点就是它支持函数调用。这意味着语音助手不仅能理解用户的指令，还能实际执行操作，或是即时获取相关信息来个性化其回应。这种功能打破了对话式 AI 与实用性的界限，让 AI 助手在处理日常任务时变得更加有价值。通过隐藏多个模型集成的复杂性，OpenAI 也是试图变革过往的 AI 应用开发方式，让曾经因技术壁垒而止步不前的开发者也能大展身手。

OpenAI 表示会在未来的更新扩展 API 的功能，包括视觉和视频等额外模态的支持，进一步模糊数字与现实世界的界限。增加的速率限制将允许更大规模的部署，而将其整合进官方的 Python 和 Node.js SDK 则会让不同平台的开发者更容易使用。此外还有一个即将推出的前瞻功能：提示词缓存。这将使开发者能够以较低成本重新处理之前的对话轮次，从而降低成本并提高 AI 互动的效率。

当然，任何革命性技术都有其需要关注的地方。和以前一样，OpenAI 承诺会在实时 API 的安全性和隐私性方面给予高度重视，通过多层次的保护措施来防止 API 滥用的风险。这包括对模型输入和输出的自动化监控以及人工审查，并利用为 ChatGPT 高级语音模式构建的音频安全基础设施。如此先进的 AI 通信能力所带来的伦理考量也不容忽视。随着 AI 系统越来越擅长模拟人类对话，透明度、知情同意以及潜在的误用问题都需要认真对待。

不过，OpenAI 的这几轮内部变动下来，“安全”已经成为了 Sam Altman 和几位离职员工最大的分歧点之一……最早是数位员工因此离开 OpenAI 创立 Anthropic，从此 Claude 成为了“正经 AI”的代名词；再到后来 Ilya 和超级对齐团队的离去，导致 X 上从此多了“what did Ilya see”这个梗；现在连 Sam Altman 的得力助手、前首席技术官 Mira Murati 也要转头而走，不得不让人对 OpenAI 后续的安全问题打个问号。

总之，OpenAI 在安全和隐私方面的努力是一个好的开始，但随着技术的普及，或许还需要制定行业标准和规定来确保其负责任地使用。

此外，这种自然的人工智能通信的兴起可能会对社会产生深远影响。尽管它可以消除语言障碍，提高残疾人使用的便捷性，但同时也引发了关于依赖人类沟通技能行业的就业替代问题。随着技术的发展，我们需要在享受其带来的激动人心的可能性的同时，也要慎重考虑其更广泛的社会影响。

随着人工智能领域的飞速发展，实时 API 的推出标志着我们在创造更自然、响应迅速且实用性强的 AI 应用方面迈出了重要一步。通过填补人类对话与 AI 能力之间的鸿沟，OpenAI 不仅在改进现有的技术，更是在为全新的应用和体验开辟道路。未来的人工智能互动已初具雏形，它将以前所未有的流畅度进行说话、倾听和回应。随着开发者不断挖掘实时 API 的潜力，我们可以期待新一代由 AI 驱动的应用程序将彻底改变我们的工作、学习和沟通方式。人类与 AI 之间的对话即将变得更加自然、细腻和强大。