OpenAI 推出嵌入式硬件 SDK，支持 ESP32 语音开发；INFP：音频驱动的双人对话头像生成，自动区分说话者和倾听者

RTE开发者社区

于 2024-12-23 20:20:51 发布

阅读量939

点赞数 27

文章标签：嵌入式硬件音视频人工智能

本文链接：https://blog.csdn.net/agora_cloud/article/details/144675897

版权

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、GPT-5 「难产」细节曝光

近日，据华尔街日报报道，OpenAI 的 GPT-5 进度出现落后，并且将不能按时发布。

和此前爆料一致，代号为猎户座（Orion）的 GPT-5 开发周期已经超过 18 个月。OpenAI 「金主」微软本来预计它能在 2024 年中发布，但结果显而易见，GPT-5 已经「难产」。

据悉，OpenAI 给 GPT-5 设定的目标不低，Orion 至少试了两轮大规模训练，但效果都未达预期，成品只是比现在的产品是强了点，但投入产出比极低，据估计，六个月的训练运行就要烧掉大约 5 亿美元（折合人民币 36.48 亿元）。

2023 年年中，OpenAI 启动了代号为「Arrakis」的测试项目，旨在验证 Orion 新设计的有效性和可行性，测试过程成本过高。2024 年初，OpenAI 决定开始新一轮尝试。5 月，研究团队认为时机成熟，启动了一项预计持续到 11 月的大规模训练。但训练中出现数据多样性不足的问题。此后，OpenAI 另辟蹊径，专门招聘软件工程师和数学家写代码、解数学题来为 Orion 提供学习材料，并详细记录解决问题的思维过程。同时寻求专家合作以及用推理模型 o1 生成合成数据，并结合传统数据来不断改进模型生成结果。

目前，迫于研发进度的延缓，OpenAI 开始将注意力转向其他项目，包括开发 GPT-4 的各种版本和 Sora 等。知情人士透露，这也导致开发新产品的团队和 Orion 研究人员之间为争夺有限的计算资源打得不可开交。

此前，包括 Ilya Sutskever、Mira Murati、Alec Radford 在内的 20 多名核心高管和资深员工都离开了 OpenAI，给 OpenAI 带来了不小的冲击。(@ APPSO)

2、Livekit 开源精准语音轮次检测模型，可精准识别用户是否说完话

目前 AI 语音最难解决的问题之一是回合结束检测，也就是要么：