在上一篇博客《大模型之二十八-语音识别Whisper进阶》中我们留了一个尾巴,就是在流式场景以及如何提升推理速度。
流式场景
流式场景分两种,一种是伪流式一种是真流式,伪流式就是bilibili或者YouTub,终端用户在观看视频的时候,是从服务器或者CDN节点下载视频,其会缓存一些数据,对于真流式场景就是抖音直播这些场景,但是双向视频通讯的会议场景对延迟要求更为苛刻。
在视频会议场景,所有传输都没法类似制作好的视频事先缓存,因网络拥塞、数据传输路径的长度、服务器处理时间会导致通讯延迟,延迟是指数据从视频会议的一端源头传到另一端所需的时间,通常以毫秒(ms)为单位。在实时通信中,尤其是在视频会议中,较低的延迟是保证流畅通信的重要因素。
延迟对通话体验的影响:
延迟 | 影响 |
---|---|
低于 150 ms | 良好的,用户通常不会感觉到明显的延迟,类似面对面的交流。 |
150 ms 到 400 ms | 大多数情况仍可接受,在快速互动的对话 |