社区供稿丨GPT-4o 对实时互动与 RTC 的影响

RTE开发者社区

于 2024-05-29 17:32:20 发布

阅读量1.3k

点赞数 17

文章标签：实时互动实时音视频

本文链接：https://blog.csdn.net/agora_cloud/article/details/139299316

版权

以下文章来源于共识粉碎机，作者AI芋圆子

前面的话：

GPT-4o 发布当周，我们的社区伙伴「共识粉碎机」就主办了一场主题为「GPT-4o 对实时互动与 RTC 的影响」讨论会。涉及的话题包括：

GPT-4o 如何降低延迟（VAD 模块可能也应用了 LLM？）
GPT-4o 怎么影响实时互动场景（分析了医疗、法律、教育、陪伴和客服等场景）
GPT-4o 应用到实时，也有不完善的地方
GPT-4o 为什么要用到 RTC（Input 场景 RTC 可以被视作解决方案。Output 场景 RTC 不一定是必须。）
怎么选择 RTC 供应商
实时场景对端侧的影响

另外，此次讨论会嘉宾史业民在我们的播客《编码人声》里深度解析了 GPT-4o 的能力边界，并基于实时多模态开发的一手经验，给开发者提出了不少建议，也欢迎收听。

这次讨论会的信息量极大，Enjoy！

本期讨论会参与者：

杜金房老师： 烟台小樱桃网络科技有限公司创始人，FreeSWITCH 中文社区创始人，RTS 社区和 RTSCon 创始人，《FreeSWITCH 权威指南》、《Kamailio 实战》、《深入理解 FFmpeg》作者，FreeSWITCH 开源项目核心 Committer。杜老师同时是 RTE 实时互动开发者社区联合主理人。

刘连响老师： 资深RTC技术专家，推特@leeoxiang。

史业民老师： 实时互动AI创业者，前智源研究院研究员。

徐净文老师： 负责百川的战略、投融资、开源生态、海外等业务。

在这里插入图片描述

1、GPT4o如何降低延迟

GPT4o前调用OpenAI API延迟极限情况下可以压缩到2秒

中美跨海光缆差不多100-200ms，如果考虑丢包，那平均在300-400ms。
语音场景需要经过ASR（语音转文本），在大模型无法流式输入的情况下，一般需要说完一句话再喂给大模型，平均需要400-500ms延迟。
如果不考虑Planning和RAG等环节，只计算First Token的话过去平均需要700-1000ms延迟。
大模型可以流式输出，但一般第一句话节后给TTS（文本转语音），TTS环节也需要400-500ms延迟。
所以整体延迟最低可以低到2秒。
上述场景主要是考虑的网络良好的情况，如果在室外体验，丢包概率会大幅增加，延迟还会再往上波动。

但在客服等场景中还经常需要做Planning和RAG，延迟会进一步增加

上述主要是可以用First Token来判断延迟的场景，对话内容比较简单。
像在类似客服等场景，在First Token前还需要先做Planning和RAG，就可能还需要经历1-2次完整延迟，整体延迟就会远远超过2秒，可能到4-5秒或者更高。

GPT4o优化延迟的机制

VAD（Voice Activity Detection）提升：VAD主要用于尽早发现用户说完话，用于触发大模型，过去用停顿时间判断，现在可能有了语义理解能力。
端到端能力：端到端可以替换掉ASR和TTS的延迟，开发者未来可以用GPT4o的ASR/TTS，也可以自己做。
其他延迟优化还包括流式处理、异步处理，多个模块在向量画的过程中如何统一，在GPT4o的设计上有很多巧思。

最低0.47元/天解锁文章