网络语音视频技术浅议（二）—— 实时性与流畅性如何保障?

最新推荐文章于 2024-08-15 17:03:00 发布

weixin_30735745

最新推荐文章于 2024-08-15 17:03:00 发布

阅读量745

点赞数

原文链接：http://www.cnblogs.com/woyipiaolingjiu/p/4750629.html

版权

上一篇博客《网络语音视频技术浅议（一）》向大家介绍了网络语音视频技术的基础知识。

未阅读过上篇博客的朋友建议先移步至《网络语音视频技术浅议（一）》，这样更能利于从总体上把握知识，也更利于理解本篇所介绍的内容。

一.引论

我们知道，在诸如即时通讯、视频会议、远程医疗、远程教育、网络监控等等网络多媒体应用系统都离不开网络语音视频技术，而且这些网络多媒体应用系统往往对于音、视频的实时性与流畅性有着较高的要求。

虽然，在我们的直观印象中好像我们就是直接的访问到了对方的摄像头，麦克风、显示器、声卡等等设备，但是实际上，在相关的语音视频呈现在我们面前之前，相关的硬、软件其实需要完成大量的工作。

就拿我最近正在研究的 OMCS 语音视频框架来说，其提供了摄像头连接器、麦克风连接器、桌面连接器、电子白板连接器等API，能让我们就像访问本地设备一样访问远程设备。程序员在使用的过程中不禁感觉到，所谓的远程设备，其实跟本地设备并没有什么两异，即使事实上远隔千山万水，但是对于我们使用起来而言也是“天涯若比邻”。因为底层的那些实现对于程序员而言是透明的。所以我们看不到背后的采集、编码、网络传送、解码、播放等大量的繁难的工作，我们只看到客户端的几个连接器，嗖的一下就连接到了远程的机器的设备上。

就如同下图所示：

但是我们要知道，OMCS 正是把艰难困苦留给了自己，简单清晰的API才能让我们带走。这些艰难困苦不仅包括回音消除、静音检测、噪声抑制、混音算法等等难题，还包括对于实时性和流畅性的处理与保障。虽然 OMCS 使用起来已经如此方便，但是作为程序员的我们仍然有必要了解其背后的相关原理，尤其是这些最基本的原理。正是因为这些原理很基本，所以才具有普遍性，掌握了这些基本原理，我们的收货就不止是用熟了几个API，而是具有了自己研发创造的潜力！

二.实时性

所谓实时性就是指远程语音视频通讯的过程中，发送方发送的音、视频和接收方接收到的音、视频在时间上要具有一致性。比如在即时通讯、视频会议、远程教育等应用中，都需要进行语音视频会话，而如果系统的实时性达不到要求，那么就会出现发送方说话说完了好久，对方才听到然后回应；接受者看到的视频图像，其实并不是当前正在发生的画面——这样的用户体验自然是相当糟糕的！当然，完全的实时性是难以实现的，所以我们的任务就是尽量使得收发两方的时间差小，小了又小！

那么，影响语音视频通讯的实时性的因素是什么呢？那就是网络延迟。网络延迟越小，语音视频通讯的实时性就越好；反之，则越差。所以，为了保证足够的实时性，我们必须从减小网络延迟入手。但是，网络的延迟主要取决于网络的速度和通话双方的物理位置的距离，单纯从软件的角度进行优化，优化的可能性很小。

三.流畅性

所谓流畅性指的就是远程语音视频通讯的过程中，接收方接收到的音、视频流畅平稳，不会出现卡顿或者突然变快的情况。同样，如果网络多媒体通讯系统的流畅性达不到要去，所带来的用户体验也是极为糟糕的！所以我们要尽量保证语音视频通讯的流畅性，比流畅更流畅！

那么，影响语音视频通讯的流畅性的因素是什么呢？那就是网络抖动。所谓网络抖动就是指网络的忽快忽慢，网络越平稳，抖动就越小，反之则大。所以，为了保证足够的流畅性，我们必须从减小网络抖动手。不同于实时性难以从软件上优化，网络的抖动的优化从软件上我们有办法。所以，即便是网络本身的质量不佳，抖动很大，但是我们也不用害怕，“若是那豺狼来了，我们有猎枪！”