作者 | Eric Harrington
出品丨AI 科技大本营(ID:rgznai100)
北京时间 10 月 2 日凌晨,OpenAI 在他们的第二次 DevDay(开发者日)上丢了一颗重磅炸弹:实时 API(Realtime API),使开发者能够使用先进的语音到语音模型进行开发。目前这项技术面向所有付费开发者开放了公共测试版,能够帮助开发者创建低延迟、多模态的应用体验,这些体验几乎可以媲美真人之间的交流。
当前 OpenAI 还没上传本次 DevDay 的录播,但根据一些博主的总结,本次 Sam Altman 的对话应该也是比较有料的,比如画饼“AGI 很快就会到来”,或是谈及 ChatGPT 的高级语音模式等等,我们会在明天再发布一篇关于这场对话的全程翻译。
回到正题,实时 API 的音频功能由全新的 GPT-4o 模型 gpt-4o-realtime-preview 提供支持,且将在未来几周内集成到 Chat Completions API 中,作为一个新的模型 gpt-4o-audio-preview。通过 gpt-4o-audio-preview,开发者可以输入文本或音频到 GPT-4o,并接收文本、音频或两者结合的回应。
不过也有很多人吐槽,“通往新时代的价格太贵了”。实时 API 和前段时间发布的 o1 模型一样,把不同的 Token 进行了“分类定价”,比如 o1 发布时就创造了一个“推理 Token”的概念,而现在实时 API 则使用文本 Token 和音频 Token:文本输入 Token 的价格为每 100 万 Token / 5 美元,输出 Token 的价格为每 100 万 Token / 20 美元。音频输入的价格为每 100 万 Token / 100 美元,输出价格为每 100 万 Token / 200 美元。这相当于大约每分钟音频输入 0.06 美元和每分钟音频输出 0.24 美元。未来 Chat Completions API 中的音频功能也将采用相同的定价。
实时 API 这项技术的核心在于其支持自然语音对话的功能,这一点与 ChatGPT 最近终于开放的高级语音模式相仿。实时 API 提供了六种预设的声音选项,让开发者可以根据不同的应用场景和用户喜好来定制自己的应用。这一进步意味着,从前需要组合多种模型才能勉强实现的自然对话,现在只需一种工具即可轻松搞定。
过去的语音助手体验充满了各种挑战。开发者不得不面对一系列复杂的过程,比如使用 OpenAI Whisper 这样的自动语音识别模型来转录音频,接着将转换后的文本传递给文本模型进行推理或理解,最后再通过文本到语音模型生成语音回复。这种方法不仅容易失去对话中的细微差别,比如情绪、重音和口音,而且多步骤的处理也造成了显著的延迟,使得用户输入与 AI 响应之间存在明显的时间差,破坏了对话的自然感。
而实时 API 则以一种“优雅”的方式解决了这些问题。通过与 GPT-4o 建立持久的 WebSocket 连接,实时 API 实现了无缝的通信流,可以实时处理打断和调整,就像两个人在面对面交谈一样。
官方给出了两个合作案例,首先是 Healthify,这是一款营养和健身指导应用程序,它使用实时 API 实现与其 AI 教练 Ria 的自然对话,同时在需要个性化支持时让人类营养师参与进来:
Healthify 的老板感叹道,以前需要一周才能搞定的配置工作现在只需要三天。
然后还有 Speak,这是一款语言学习应用程序,它使用实时 API 来支持角色扮演功能,鼓励用户用新语言练习对话:
随着技术的进步,实时 API 还会在越来越多的应用中发挥作用。从提供更具同理心和响应能力的虚拟治疗师,到能够管理复杂任务的类人理解能力的个人助手,这些应用的可能性仅受限于开发者的想象力。API 还有望在语言学和认知科学等领域发挥重要作用,为人类与 AI 通信的本质提供新的见解。
实时 API 的另一大亮点就是它支持函数调用。这意味着语音助手不仅能理解用户的指令,还能实际执行操作,或是即时获取相关信息来个性化其回应。这种功能打破了对话式 AI 与实用性的界限,让 AI 助手在处理日常任务时变得更加有价值。通过隐藏多个模型集成的复杂性,OpenAI 也是试图变革过往的 AI 应用开发方式,让曾经因技术壁垒而止步不前的开发者也能大展身手。
OpenAI 表示会在未来的更新扩展 API 的功能,包括视觉和视频等额外模态的支持,进一步模糊数字与现实世界的界限。增加的速率限制将允许更大规模的部署,而将其整合进官方的 Python 和 Node.js SDK 则会让不同平台的开发者更容易使用。此外还有一个即将推出的前瞻功能:提示词缓存。这将使开发者能够以较低成本重新处理之前的对话轮次,从而降低成本并提高 AI 互动的效率。
当然,任何革命性技术都有其需要关注的地方。和以前一样,OpenAI 承诺会在实时 API 的安全性和隐私性方面给予高度重视,通过多层次的保护措施来防止 API 滥用的风险。这包括对模型输入和输出的自动化监控以及人工审查,并利用为 ChatGPT 高级语音模式构建的音频安全基础设施。如此先进的 AI 通信能力所带来的伦理考量也不容忽视。随着 AI 系统越来越擅长模拟人类对话,透明度、知情同意以及潜在的误用问题都需要认真对待。
不过,OpenAI 的这几轮内部变动下来,“安全”已经成为了 Sam Altman 和几位离职员工最大的分歧点之一……最早是数位员工因此离开 OpenAI 创立 Anthropic,从此 Claude 成为了“正经 AI”的代名词;再到后来 Ilya 和超级对齐团队的离去,导致 X 上从此多了“what did Ilya see”这个梗;现在连 Sam Altman 的得力助手、前首席技术官 Mira Murati 也要转头而走,不得不让人对 OpenAI 后续的安全问题打个问号。
总之,OpenAI 在安全和隐私方面的努力是一个好的开始,但随着技术的普及,或许还需要制定行业标准和规定来确保其负责任地使用。
此外,这种自然的人工智能通信的兴起可能会对社会产生深远影响。尽管它可以消除语言障碍,提高残疾人使用的便捷性,但同时也引发了关于依赖人类沟通技能行业的就业替代问题。随着技术的发展,我们需要在享受其带来的激动人心的可能性的同时,也要慎重考虑其更广泛的社会影响。
随着人工智能领域的飞速发展,实时 API 的推出标志着我们在创造更自然、响应迅速且实用性强的 AI 应用方面迈出了重要一步。通过填补人类对话与 AI 能力之间的鸿沟,OpenAI 不仅在改进现有的技术,更是在为全新的应用和体验开辟道路。未来的人工智能互动已初具雏形,它将以前所未有的流畅度进行说话、倾听和回应。随着开发者不断挖掘实时 API 的潜力,我们可以期待新一代由 AI 驱动的应用程序将彻底改变我们的工作、学习和沟通方式。人类与 AI 之间的对话即将变得更加自然、细腻和强大。
大模型刷新一切,让我们有着诸多的迷茫,AI 这股热潮究竟会推着我们走向何方?面对时不时一夜变天,焦虑感油然而生,开发者怎么能够更快、更系统地拥抱大模型?《新程序员 007》以「大模型时代,开发者的成长指南」为核心,希望拨开层层迷雾,让开发者定下心地看到及拥抱未来。
读过本书的开发者这样感慨道:“让我惊喜的是,中国还有这种高质量、贴近开发者的杂志,我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容,这些内容既真实又有价值。”
能学习到新知识、产生共鸣,解答久困于心的困惑,这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。