视频通信为何能够在疫情之下脱颖而出？

最新推荐文章于 2021-12-07 15:05:43 发布

dupp29

最新推荐文章于 2021-12-07 15:05:43 发布

阅读量313

点赞数

原文链接：https://www.linkedin.com/pulse/video-communications-covid-19-why-battle-won-alex-eleftheriadis/

版权

@[TO（本篇文章翻译自Enghouse首席科学家Alex Eleftheriadis，将以他的口吻叙述。）

正文
前言：本篇文章仅表达我的个人观点，不代表我所关联的任何公司的立场。

几天前，我的好朋友Alex Gouaillard发布了一条关于2014年颁发的一系列奖项的推特：WebRTC先锋奖。

第四届WebRTC会议和博览会在佐治亚州的亚特兰大城举行，共向64人颁发了这些奖项。我也是获奖者之一，让我更加高兴的是,颁奖的这一天也是我的生日。

对于大多数人来说“WebRTC”只是一个没有任何意义并且晦涩难懂的缩写词。这是事实，但是，它确实也是一个允许网页浏览器发送和接收音频和视频的重要软件。它基于万维网联盟(W3C)和互联网工程工作队(IETF)创建的标准，并允许浏览器表现得像视频会议端点。你只需要连接一个摄像头和一个麦克风，现如今几乎所有的计算机和手提电脑都带有摄像头和麦克风。

看到Alex的推特，我意识到我们今天是多么幸运，通信技术和基础设施恰好为Covid-19做好准备。我数了一下了我的iPhone上有15个应用程序，这些应用程序都有视频或音频功能，所有这些应用程序都支持多点通讯。每个能接触到计算设备的人，从小学到退休疗养院，以及所有介于两者之间的东西，现在都使用了Zoom、Skype、WebEx、Teams、Hangouts、Vidyo等应用程序。这些应用程序大多数都非常好，还有几个甚至是免费的。

如果这一流行病发生在10年前，情况将非常不同，交流将受到严重限制。今天我们所拥有正是研究和产品开发方面辛勤工作的结果，这些工作早在20世纪70年代后期就开始了。当我们庆祝今天医学研究为我们带来的惊人结果时，基于mRNA的疫苗设计在创纪录的时间内完成并交付，我意识到大多数人并不了解如何尽可能轻松地进行交流。所以我想我应该尝试解决这个问题。

早在2014年，我就在加利福尼亚州圣何塞举行的第五届WebRTC会议和博览会上的主题演讲中做了一些历史研究。我试图找到我个人认为是多点视频通信历史上的关键创新的第一个外观。时间轴在两张幻灯片中有近50个条目。对于本文，我将其范围缩小到基本要点，即我认为是使我们走到今天的七大创新。

视频的问题
视频通信问题的核心是，对于常规清晰度，摄像机以120 Mbps的速率产生原始数字视频，而对于高分辨率（HD及以上），其产生速率是其多倍。这些东西太多了，无法运输或存储。多年来，已经开发出了将这种数量减少几个数量级的技术，同时努力对视觉质量几乎没有影响。此过程称为压缩，它是通过软件或定制芯片中的“编码器”完成的。减少的数据集可以存储或传输，可以通过先通过“解码器”将其处理后再转换回其原始格式来回放，也可以在软件或芯片中进行。整体上将一对编码器和解码器称为“编解码器”。

当Netflix要在其系统上播放电影时，他们首先必须对其进行编码，然后再进行存储。当您选择观看它时，它会从其服务器传输（“流式传输”）到您的终端（计算机，平板电脑，Apple TV，智能电视等），解码器将在接收时解压，并显示在您的屏幕上供您欣赏。

与电影观看相反，在实时通信中，即当两个或两个以上的人想要互相看到和听见时，还有一个额外的限制：延时。为了能够进行对话，将语音从一个地方传输到另一个地方的端到端延迟必须小于180毫秒，理想情况下要短得多。这是长途电话首先设定的标准。当您要观看电影时，您不必介意在实际开始播放之前是否需要等待一两秒钟。对低延迟的需求，再加上视频是实时编码且无法预先存储的事实，使得实时通信环境与流传输的环境大不相同。尽管两者都是视频传输应用程序，但是工具、体系结构，甚至业务模型都完全不同。

早期
故事始于1978年，一项专利授予压缩实验室(美国专利号4302775)，由R.D.Widergren、W.-H.Chen、S.C.Fralick和A.G.Tescher介绍。（安迪·特斯彻至今一直积极参与视频编码标准化工作！）它描述了速率控制：如何将每秒产生可变位数的视频编码器连接到每秒传输固定位数的通道。速率控制类似于汽车的油门踏板：你需要它来控制你的速度。
您需要的第二件事是一个优质可靠的引擎。这是通过所谓的混合编解码器实现的，混合编解码器在1981年由Jain和Jain在IEEE TransIEEE Trans. On Communications首次提出（“位移测量及其在帧间图像编码中的应用”）。它使用的是一种称为带变换编码的基于块的运动估计的技术，已成为当今几乎所有与商业相关的视频编解码器的设计基础。不同的块随着每一代新编解码器变得更加复杂，但一般的块结构保持不变。
这两项创新引领着该技术首次进入重大商业领域：PictureTel（全视通），由Brian Brian，Jerefrey Bernstein和David Staelin于1984年创立。（有趣的是，麻省理工学院的一位希腊研究员，已故的迈克尔·德图佐斯（Michael Dertouzos）教授，以及他当时的研究生格雷格·帕帕多普洛斯（Greg Papadopoulos）和理查德·索利（Richard Soley）都是原始团队的成员。

全视通从面向ISDN通道的C-2000视频编码器和解码器开始，这是那个时代的高速数字连接。它制造了一系列产品，最终于2001年10月被Polycom（宝利通）收购。Polycom也于2018年被Plantronics收购，现在被称为Poly。

多点视频-起点
全视通最终是的涉及是为了点对点连接。虽然为支持多方参与制定了若干设计方案，但行业最初的设计思想在1994年题为“视频会议多点控制单元”的文件中作了描述，该文件由M.H.Willebeek-Le Mair、D.D.Kandlur和Z.Y.Shae发表。（19th Conf. 关于本地计算机网络，1994年1月）。

该设计被称为转码多点控制单元或MCU，其工作原理如下。多点会议的所有参与者都编码他们的视频并传输到MCU。MCU对输入的视频进行解码，缩放，使用规定的布局将它们放置在一个集成的视频帧中，对合成的视频进行编码，并将其传输回所有参与者。更复杂的MCU可以为每个参与者创建自定义布局，从而进行编码。在2011年前后，这一方法的效果相当不错，并且一直是所有多点系统的基础。

MCU设计的主要缺点是，由于必须解码所有传入的视频并对其进行重新编码，因此需要巨大的处理能力。具有个性化的布局功能，这意味着每个参与者都有一个编码。因此，MCU过去花费数万美元甚至数十万美元，并且支持的参与者也有限（通常最多32位）。

互联网上的视频
视频通信最初需要专用端点：专门设计的盒子放置在会议室，并与一个或多个监视器和摄像机连接。由于MCU成本高得多，购买和运行完整系统的成本使得视频会议服务成为商业奢侈品。总费用的很大一部分是连接站点之间的费用：站点之间通信连接设置和每月月租。必须提供特殊的通信线路并付费，根据所需的视频质量，每月要花费数千美元。

20世纪90年代末，在万维网增长的推动下，互联网已成为全球通信平台的首选。研究人员试图通过互联网传输音频和视频只是时间问题。事实上，我在哥伦比亚大学1992-1994年的博士研究工作中建立了这样一个系统，名为Xphone（代码仍可下载）。

1996年1月，我在哥伦比亚大学的同事Henning Schulzrinne与Stephen Casner、Ron Frederick和Van Jacobson一起出版了《实时协议》(RTP：实时应用的传输输协议，RFC3550)的第一个规范。
RTP描述了如何从音频或视频编码器（或任何其他实时流）中取出比特并将它们放入数据包中，以便它们可以通过IP网络传输。它还允许传输定时信息，这是适时回放和同步多媒体信息的重要要求。RTP允许使用单一网络传输视听数据和一般计算数据，使视听通信应用更加具有成本效益。自那时以来，RTP一直用于所有基于互联网的音频或视频通信应用。顺便说一句，这包括VoIP电话——那些连接互联网的电话，而不是旧的铜基电线。

但是，对于实时视频，开始并不十分成功。人们开始通过RTP部署实时视频后，很明显，IP（和RTP）的有损特性带来了巨大的挑战。与其他数字网络（如ISDN）损失很少的情况相反，IP网络的尽力而为，基于分组的特性带来了非常具有挑战性的环境。突发损失高达20％的情况并不罕见，视频编码和传输机制还没有准备好解决这些问题。最终结果是视频有时会破碎，冻结并充满严重的块状伪像。

同时，用于视频会议的端点的类型也开始发生变化。常规计算机具有运行视频编码和解码应用程序的能力。2007年推出的iPhone和2010年推出的iPad有助于最终用户获得高质量的显示屏以及强大的计算能力。业界开始采用统一通信（UC）来描述电话，Web和视频会议，台式机和应用程序共享等的融合。在端点和网络不断发展的同时，多点视频仍然依靠旧的转码MCU。

迫切需要一种针对互联网需求的新设计。

多点视频正确的方式
2005年，Ofer Shapiro、Avery More和我创建了Vidyo(2019年被Enghouse收购)，目的是引入一种新的多点视频架构，它将解决错误恢复能力和服务器复杂性问题。这种新架构基于两个创新：使用可伸缩视频编码和我们称为选择性转发服务器。

可扩展视频编码涉及在时间和空间维度上以多种分辨率创建视频信号的多个编码版本。换句话说，编码器以1080p（HD）和720p（标准TV）空间分辨率以及每秒60帧和每秒30帧的速度对相同的视频进行编码。这样一来，无需进行任何处理即可提取较低分辨率的信号；您只需选择与所需分辨率相对应的分量（位组）即可。另一个好处是，通过Vidyo引入的重传技术，它可以以很高的鲁棒性发送信号。这样就结束了视频损坏或失真的情况。

对可扩展编码的编解码器支持始于2007年的H.264标准，此后一直是其后所有视频编码标准（H.265，VP9，H.266，AV1）的一部分。错误鲁棒性技术同样得到了所有相应视频传输标准的支持。

现在看服务器，充分利用对所有参与者传入的视频信号使用可伸缩编码，我们能够用所谓的“选择性转发单元”或SFU代替转码MCU。这种新的服务器体系结构的工作原理如下：所有参与者都将他们的可伸缩编码视频发送到SFU。然后，SFU考虑每个参与者需要接收的内容–它需要查看哪些其他参与者以及以何种分辨率。然后，它仅从传入视频中选择那些相关的视频数据包，并将其转发给该参与者。这就是为什么该产品被称为“ VidyoRouter”的原因。

低延时
SFU体系结构的直接好处是它还大大减少了延迟。MCU可能会引入大约150-200毫秒的延迟，而SFU在绝大多数数据包中的工作时间为10或更小。这对最终用户提供的体验质量产生了巨大影响，因为即使有数十个用户也可以进行真正的交互式视频会议。实际上，低延迟是使该技术对最终用户“透明”的关键：一个人能够长时间参与而不会感到疲倦，不需要等待对方听到和回应的尴尬沉默。

准备扩展
SFU的最大优点也许就是服务器不涉及信号处理。它可以由标价数千美元的标准服务器来实现，每台服务器都支持数百个同时用户。与此相比，专用MCU最多只能支持32个用户，价格却高出近100倍。该设计也是目前已主导所有计算应用程序的公共云服务的完美匹配。

网络就绪
与传统的视频会议端点相反，在此新体系结构中，接收端点接收多个视频信号。它必须解码其中的每一个，并在用户的屏幕上执行自己的合成。这与使用MCU的传统视频会议系统非常不同，在传统的视频会议系统中，组合是在MCU本身进行的。SFU方法类似于Web服务器和浏览器交互的方式：浏览器从不同的Web服务器获取内容并在用户的显示器上执行合成。这确保了服务器不必执行大量处理，因此能够为成千上万的用户提供服务。这是一个关键的设计特征，它可以使网络快速扩展。SFU设计将这种架构带入了多点视频通信领域。

Vidyo在2008年推出了第一款产品。
到2011年，所有多点供应商都开始采用这种架构及其衍生产品。Microsoft在Lync 2013中使用了此功能，该功能随后与Skype合并，然后又运用到Teams。
Radvision于2012年9月在其SCOPIA Elite 5000系列中选用了可扩展编码。
Radvision SCOPIA Elite MCU 5000系列规格表
Polycom在2012年10月提供了免版税的可扩展视频编码实现。
保利通SVC公告
Google使用该设计并在2013年5月创建了Hangouts，现在称为Google Meet。Zoom由埃里克·袁（Eric Yuan）于2011年创立，并于2013年提供了首款产品，其运作方式也是如此。由Emil Ivov发起的开源多点视频会议项目Jitsi在2013年提供了其首个VideoBridge SFU（Jitsi在2015年被Atlassian收购，然后在2018年被8x8收购）。

浏览器上的视频
图片看起来是完整的：我们有可伸缩编码的编码工具，这些编码工具无需处理即可进行信号处理，具有SFU的正确服务器架构以及具有基于云的服务的强大部署机制。

但是，仍然有一个令人讨厌的细节：用户必须为他们使用的每种视频通信服务下载一个软件客户端。这与必须购买不同的硬件来使用服务相差很远，但是仍然被许多人视为障碍。如果可以直接从其网络浏览器加入任何会议而无需下载任何内容，则将是理想的选择。这正是Google于2011年5月启动的WebRTC项目背后的想法。
WebRTC启动电子邮件公告
WebRTC是开放源代码软件，它提供所有必要的通道，允许Web浏览器（或任何应用程序）从运行它的计算机上获取视频和音频，对其进行编码并通过网络发送。同时，它可以接收多个视频和音频流并将其混合以进行播放或显示。WebRTC公开了W3C定义的一组JavaScript API，允许应用程序程序员对其进行控制。媒体传输是使用IETF定义的标准化通信协议执行的，而信令（如何在各方之间建立连接）则完全由程序员控制。

Web RTC在过去9年中有了很大的发展，所有主流浏览器都支持它在所有主要操作系统中的应用。并非所有的功能都得到所有浏览器的支持，但基本的功能都有。最有趣的是，它通常嵌入在根本不使用Web浏览器的应用程序中。事实上，今天有数十亿个端点是使用Web RTC构建的，使其成为用于实时视频和音频最常用的软件堆栈。

为了了解它的使用范围，可以考虑一下Facebook的Messenger和Instagram等应用程序中的音频和视频通信都是使用WebRTC堆栈构建的。巧合的是，几天前，Facebook宣布彻底改写以提高效率（“为我们的应用提供更小，更快的视频通话库，”2020年12月21日）。

视频和COVID-19
快进到2020年3月：流行病的流行迫使很大一部分员工远程工作，学校和大学不得不转向远程学习解决方案，所有人都被迫熟悉各种音频和视频通信软件。但是技术在那里，随时可以使用。大多数供应商仅需扩展其后端基础架构即可满足不断增长的需求。扩展绝非易事，但要点是他们不必重新开发他们的系统。这样一来，他们能够非常快速地做出响应。

因此，当您进行下一个Zoom，WebEx，Teams，Skype，Messenger，Meet，Vidyo或其他通话，看到亲人或同事的微笑时，停顿一秒钟，想一想这所有的技术，它让一切看起来如此简单，并且如此的出色，“与魔术并无区别”。

原文链接：https://www.linkedin.com/pulse/video-communications-covid-19-why-battle-won-alex-eleftheriadis/

dupp29

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
视频通信为何能够在疫情之下脱颖而出？

@[TO（本篇文章翻译自Enghouse首席科学家Alex Eleftheriadis，将以他的口吻叙述。）正文前言：本篇文章仅表达我的个人观点，不代表我所关联的任何公司的立场。几天前，我的好朋友Alex Gouaillard发布了一条关于2014年颁发的一系列奖项的推特：WebRTC先锋奖。第四届WebRTC会议和博览会在佐治亚州的亚特兰大城举行，共向64人颁发了这些奖项。我也是获奖者之一，让我更加高兴的是,颁奖的这一天也是我的生日。对于大多数人来说“WebRTC”只是一个没有任何意义并且晦涩难
复制链接

扫一扫