开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、GPT-5 「难产」细节曝光
近日,据华尔街日报报道,OpenAI 的 GPT-5 进度出现落后,并且将不能按时发布。
和此前爆料一致,代号为猎户座(Orion) 的 GPT-5 开发周期已经超过 18 个月。OpenAI 「金主」微软本来预计它能在 2024 年中发布,但结果显而易见,GPT-5 已经「难产」。
据悉,OpenAI 给 GPT-5 设定的目标不低,Orion 至少试了两轮大规模训练,但效果都未达预期,成品只是比现在的产品是强了点,但投入产出比极低,据估计,六个月的训练运行就要烧掉大约 5 亿美元(折合人民币 36.48 亿元)。
2023 年年中,OpenAI 启动了代号为「Arrakis」的测试项目,旨在验证 Orion 新设计的有效性和可行性,测试过程成本过高。2024 年初,OpenAI 决定开始新一轮尝试。5 月,研究团队认为时机成熟,启动了一项预计持续到 11 月的大规模训练。但训练中出现数据多样性不足的问题。此后,OpenAI 另辟蹊径,专门招聘软件工程师和数学家写代码、解数学题来为 Orion 提供学习材料,并详细记录解决问题的思维过程。同时寻求专家合作以及用推理模型 o1 生成合成数据,并结合传统数据来不断改进模型生成结果。
目前,迫于研发进度的延缓,OpenAI 开始将注意力转向其他项目,包括开发 GPT-4 的各种版本和 Sora 等。知情人士透露,这也导致开发新产品的团队和 Orion 研究人员之间为争夺有限的计算资源打得不可开交。
此前,包括 Ilya Sutskever、Mira Murati、Alec Radford 在内的 20 多名核心高管和资深员工都离开了 OpenAI,给 OpenAI 带来了不小的冲击。(@ APPSO)
2、Livekit 开源精准语音轮次检测模型,可精准识别用户是否说完话
目前 AI 语音最难解决的问题之一是回合结束检测,也就是要么:
-
过早响应:用户只是停顿思考,系统却以为用户说完了
-
过晚响应:用户已经完成发言,但系统未及时反应
Liv