开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、OpenAI Realtime API 升级,集成 WebRTC 且降价 60%
在 OpenAI 第九场发布会上 ,其焦点主要放在 API 和开发者服务的全新升级上,并宣布向 API 使用等级 5 级的开发者开放 OpenAI o1 API 的访问权限。据官方介绍,现已正式上线的 o1 具备多项关键功能,可支持实际应用场景如下:
-
函数调用:无缝连接 o1 与外部数据和 API。
-
结构化输出:生成可靠地遵循自定义 JSON 模式的响应。
-
开发者指令:为模型指定指令或上下文,例如定义语气、风格以及其他行为指导。
-
视觉能力:推理图像,开启更多科学、制造或编程领域的应用,特别是在视觉输入至关重要的场景中。
-
更低延迟:与 o1-preview 相比,o1 在处理相同请求时,推理 token 使用量平均减少 60%。
OpenAI 对 Realtime API 也进行了全面升级。新版本特别适合开发语音助手、实时翻译工具等应用场景。同时,Realtime API 能够集成到智能眼镜等可穿戴设备中,或者轻松接入各类摄像头和麦克风系统。Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。
据介绍,WebRTC 可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能,即使在网络条件不稳定的情况下也能保证流畅的用户体验。Realtime API 还新增了多项实用功能:
-
后台任务,如内容审核或分类,可以在不干扰用户语音互动的情况下进行。
-
允许自定义输入上下文,指定哪些对话内容作为模型的输入。
-
控制响应时机,利用服务器端语音活动检测(VAD),但不自动触发回应。
-
延长最大会话时长,将原本 15 分钟的会话时长增加到 30 分钟。
在定价方面,OpenAI 大幅下调了相关服务费用:gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%,降至每百万输入 toke