以下文章来源于共识粉碎机 ,作者AI芋圆子
前面的话:
GPT-4o 发布当周,我们的社区伙伴「共识粉碎机」就主办了一场主题为「GPT-4o 对实时互动与 RTC 的影响」讨论会。涉及的话题包括:
- GPT-4o 如何降低延迟(VAD 模块可能也应用了 LLM?)
- GPT-4o 怎么影响实时互动场景(分析了医疗、法律、教育、陪伴和客服等场景)
- GPT-4o 应用到实时,也有不完善的地方
- GPT-4o 为什么要用到 RTC(Input 场景 RTC 可以被视作解决方案。Output 场景 RTC 不一定是必须。)
- 怎么选择 RTC 供应商
- 实时场景对端侧的影响
另外,此次讨论会嘉宾史业民在我们的播客《编码人声》里深度解析了 GPT-4o 的能力边界,并基于实时多模态开发的一手经验,给开发者提出了不少建议,也欢迎收听。
这次讨论会的信息量极大,Enjoy!
本期讨论会参与者:
杜金房老师: 烟台小樱桃网络科技有限公司创始人,FreeSWITCH 中文社区创始人,RTS 社区和 RTSCon 创始人,《FreeSWITCH 权威指南》、《Kamailio 实战》、《深入理解 FFmpeg》作者,FreeSWITCH 开源项目核心 Committer。杜老师同时是 RTE 实时互动开发者社区联合主理人。
刘连响老师: 资深RTC技术专家,推特@leeoxiang。
史业民老师: 实时互动AI创业者,前智源研究院研究员。
徐净文老师: 负责百川的战略、投融资、开源生态、海外等业务。
1、GPT4o如何降低延迟
GPT4o前调用OpenAI API延迟极限情况下可以压缩到2秒
-
中美跨海光缆差不多100-200ms,如果考虑丢包,那平均在300-400ms。
-
语音场景需要经过ASR(语音转文本),在大模型无法流式输入的情况下,一般需要说完一句话再喂给大模型,平均需要400-500ms延迟。
-
如果不考虑Planning和RAG等环节,只计算First Token的话过去平均需要700-1000ms延迟。
-
大模型可以流式输出,但一般第一句话节后给TTS(文本转语音),TTS环节也需要400-500ms延迟。
-
所以整体延迟最低可以低到2秒。
-
上述场景主要是考虑的网络良好的情况,如果在室外体验,丢包概率会大幅增加,延迟还会再往上波动。
但在客服等场景中还经常需要做Planning和RAG,延迟会进一步增加
-
上述主要是可以用First Token来判断延迟的场景,对话内容比较简单。
-
像在类似客服等场景,在First Token前还需要先做Planning和RAG,就可能还需要经历1-2次完整延迟,整体延迟就会远远超过2秒,可能到4-5秒或者更高。
GPT4o优化延迟的机制
-
VAD(Voice Activity Detection)提升:VAD主要用于尽早发现用户说完话,用于触发大模型,过去用停顿时间判断,现在可能有了语义理解能力。
-
端到端能力:端到端可以替换掉ASR和TTS的延迟,开发者未来可以用GPT4o的ASR/TTS,也可以自己做。
-
其他延迟优化还包括流式处理、异步处理,多个模块在向量画的过程中如何统一,在GPT4o的设计上有很多巧思。