OpenAI Realtime API 升级，集成 WebRTC 且降价 60%；豆包发布视觉理解模型，实时语音模型也将上线

RTE开发者社区

于 2024-12-18 19:21:11 发布

阅读量1k

点赞数 22

文章标签： webrtc

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/agora_cloud/article/details/144567226

版权

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、OpenAI Realtime API 升级，集成 WebRTC 且降价 60%

在 OpenAI 第九场发布会上，其焦点主要放在 API 和开发者服务的全新升级上，并宣布向 API 使用等级 5 级的开发者开放 OpenAI o1 API 的访问权限。据官方介绍，现已正式上线的 o1 具备多项关键功能，可支持实际应用场景如下：

函数调用：无缝连接 o1 与外部数据和 API。
结构化输出：生成可靠地遵循自定义 JSON 模式的响应。
开发者指令：为模型指定指令或上下文，例如定义语气、风格以及其他行为指导。
视觉能力：推理图像，开启更多科学、制造或编程领域的应用，特别是在视觉输入至关重要的场景中。
更低延迟：与 o1-preview 相比，o1 在处理相同请求时，推理 token 使用量平均减少 60%。

OpenAI 对 Realtime API 也进行了全面升级。新版本特别适合开发语音助手、实时翻译工具等应用场景。同时，Realtime API 能够集成到智能眼镜等可穿戴设备中，或者轻松接入各类摄像头和麦克风系统。Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。

据介绍，WebRTC 可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能，即使在网络条件不稳定的情况下也能保证流畅的用户体验。Realtime API 还新增了多项实用功能：

后台任务，如内容审核或分类，可以在不干扰用户语音互动的情况下进行。
允许自定义输入上下文，指定哪些对话内容作为模型的输入。
控制响应时机，利用服务器端语音活动检测（VAD），但不自动触发回应。
延长最大会话时长，将原本 15 分钟的会话时长增加到 30 分钟。

在定价方面，OpenAI 大幅下调了相关服务费用：gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%，降至每百万输入 toke

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。