OpenAI Realtime API 升级,集成 WebRTC 且降价 60%;豆包发布视觉理解模型,实时语音模型也将上线

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、OpenAI Realtime API 升级,集成 WebRTC 且降价 60%

在 OpenAI 第九场发布会上 ,其焦点主要放在 API 和开发者服务的全新升级上,并宣布向 API 使用等级 5 级的开发者开放 OpenAI o1 API 的访问权限。据官方介绍,现已正式上线的 o1 具备多项关键功能,可支持实际应用场景如下:

  • 函数调用:无缝连接 o1 与外部数据和 API。

  • 结构化输出:生成可靠地遵循自定义 JSON 模式的响应。

  • 开发者指令:为模型指定指令或上下文,例如定义语气、风格以及其他行为指导。

  • 视觉能力:推理图像,开启更多科学、制造或编程领域的应用,特别是在视觉输入至关重要的场景中。

  • 更低延迟:与 o1-preview 相比,o1 在处理相同请求时,推理 token 使用量平均减少 60%。

OpenAI 对 Realtime API 也进行了全面升级。新版本特别适合开发语音助手、实时翻译工具等应用场景。同时,Realtime API 能够集成到智能眼镜等可穿戴设备中,或者轻松接入各类摄像头和麦克风系统。Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。

据介绍,WebRTC 可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能,即使在网络条件不稳定的情况下也能保证流畅的用户体验。Realtime API 还新增了多项实用功能:

  • 后台任务,如内容审核或分类,可以在不干扰用户语音互动的情况下进行。

  • 允许自定义输入上下文,指定哪些对话内容作为模型的输入。

  • 控制响应时机,利用服务器端语音活动检测(VAD),但不自动触发回应。

  • 延长最大会话时长,将原本 15 分钟的会话时长增加到 30 分钟。

在定价方面,OpenAI 大幅下调了相关服务费用:gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%,降至每百万输入 toke

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值