大模型之二十九-语音识别Whisper推理加速

最新推荐文章于 2025-04-01 00:15:00 发布

shichaog

最新推荐文章于 2025-04-01 00:15:00 发布

阅读量2.1k

点赞数 12

分类专栏：神经网络&人工智能文章标签：语音识别 whisper 人工智能

本文链接：https://blog.csdn.net/shichaog/article/details/141735111

版权

神经网络&人工智能专栏收录该内容

31 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

在上一篇博客《大模型之二十八-语音识别Whisper进阶》中我们留了一个尾巴，就是在流式场景以及如何提升推理速度。

流式场景

流式场景分两种，一种是伪流式一种是真流式，伪流式就是bilibili或者YouTub，终端用户在观看视频的时候，是从服务器或者CDN节点下载视频，其会缓存一些数据，对于真流式场景就是抖音直播这些场景，但是双向视频通讯的会议场景对延迟要求更为苛刻。
在视频会议场景，所有传输都没法类似制作好的视频事先缓存，因网络拥塞、数据传输路径的长度、服务器处理时间会导致通讯延迟，延迟是指数据从视频会议的一端源头传到另一端所需的时间，通常以毫秒（ms）为单位。在实时通信中，尤其是在视频会议中，较低的延迟是保证流畅通信的重要因素。
延迟对通话体验的影响：

延迟	影响
低于 150 ms	良好的，用户通常不会感觉到明显的延迟，类似面对面的交流。
150 ms 到 400 ms	大多数情况仍可接受，在快速互动的对话