音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

Vimeo 的数字版权管理（DRM）
数字版权管理 (DRM) 可实现媒体的安全传输，以便除其预期接收者之外的任何实体都无法有意义地访问它。Vimeo从事提供视频访问的业务，随着我们通过 Vimeo OTT 服务支持更大的工作室，许可证持有者希望对其内容进行更深入、更细致的控制；较大的工作室在在线播放时有更严格的 DRM 要求。因此，从黑匣子中辨别 DRM 的可配置部分对于确保无缝播放以及有意义地保护许可视频至关重要。

https://medium.com/vimeo-engineering-blog/drm-at-vimeo-9c3b9537119a

AV2 视频编解码器——早期性能评估研究

本文针对libaom AV1编码器，提出并讨论了AV2作为研究分支的新编码工具的广泛性能评估。

https://ottverse.com/av2-video-codec-evaluation/

DCT如此重要，作者当初竟然不知道？
前段时间，LiveVideoStack发布了一篇文章《视频压缩简史：从1920到2020》，这篇文章获得了很高的阅读量，文章中记录了一个又一个视频压缩历史上的里程碑事件，而其中最引人注目，也最重要的发明之一就是DCT。没有DCT，后面的H.26X， JPEG等一系列压缩标准将无从谈起。

SoundStream：端到端神经音频编解码器
今年早些时候，我们发布了Lyra，这是一种用于低比特率语音的神经音频编解码器。在“SoundStream：端到端神经音频编解码器”中，我们介绍了一种新颖的神经音频编解码器，通过提供更高质量的音频并扩展到编码不同的声音类型，包括干净的语音、嘈杂和混响语音、音乐, 和环境声音。SoundStream 是第一个处理语音和音乐的神经网络编解码器，同时能够在智能手机 CPU 上实时运行。它能够使用单一训练模型在广泛的比特率范围内提供最先进的质量，这代表了可学习编解码器的重大进步。

https://ai.googleblog.com/2021/08/soundstream-end-to-end-neural-audio.html

fraunhoferhhi的VVC编码器更新V 1.1.0版本
在此次的更新版本中，添加了BCW、重新定义预设、提高 SCC 和 2-pass RC 精度，以及各种错误修正和改进。

https://github.com/fraunhoferhhi/vvenc/releases/tag/v1.1.0

H.266/VVC 帧内预测技术
相比于 HEVC，VVC 对已有的一些帧内预测技术在多个方向上进行了细化和优化：加倍细化的预测角度，及针对长方形块的更有效预测的广角模式；更加高效自适应的 4 头内插及平滑滤波；多个参考行；多个子块划分......

VVenC：开源实用 VVC 编码器的优化

本篇是 PCS2021 的 workshop，讲述 HHI 开发 VVenC 的一些进展与细节。首先 Benjamin 对 VVenC 有一个整体上的介绍，随后 Adam 详细介绍了 VVenC 的 preset 是如何通过帕累托优化挑选的，VVenC 的多线程优化，最后，Christian 介绍了 VVenC 的主观优化。

李超：WebRTC传输与服务质量

为了保证音视频的质量，WebRTC底层做了大量的工作，尤其是网络传输与服务质量，更是其核心技术，本文由北京音视跳动科技有限公司首席架构师李超在LiveVideoStack线上分享的演讲整理而成，详细解析了WebRTC底层技术与优化在网络质量、传输实时性与服务质量之间的矛盾以及平衡之道。

如何实现H.264的实时传输？
实时视频系统中的媒体传输，绝大多数都会采用RTP（实时传输协议）标准。H.264视频作为当前应用最广泛的视频编码标准，其传输协议也会首选RTP标准。在设计实现H.264的实时传输时，H.264协议基于RTP的打包和解包定义于IETF标准-RFC6184，RTC系统需要遵循这个标准来设计打包和解包处理模块。在通信理论中，这个过程可以被认为是基于传输的信道编码。本篇技术文章带你了解H.264在RTP中的基本格式和技术实践。

TCP 才不傻！
本文回答了读者对TCP在3次握手和4次挥手的一些疑问，这些问题都是关于TCP是如何处理这些异常场景的，我们在学TCP连接建立和断开的时候，总是以为这些过程能如期完成。可惜理想很丰满，现实很骨感，事实预料呀。但TCP才不傻，对以上这些异常场景都是有做处理的。

开启生成式视频压缩：谷歌基于GAN来实现，性能与HEVC相当

来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法，该方法优于以前的神经视频压缩方法，并且在用户研究中与 HEVC 性能相当。

论文推介：语音增强模型DCCRN+—基于SNR估计的子带DCCRN
DCCRN+是基于DCCRN的改进，提出了一种结合SNR估计和子带处理的语音增强方法，可以在模型降噪能力和人声质量两个方面做较好的权衡，模型的前向推理速度也得到了一定的提升。

ICASSP2021：基于显著性进行目标检测的VVC编码
本文论文基于VVC提出了面向显著性的编码框架用于处理机器任务。为了在编码前获取显著性区域，论文使用YOLO进行目标检测。为了验证编码对于机器处理的效果，论文对解码图像使用Mask R-CNN进行目标分割。

惊艳的NeRF算法，可用于视图合成的神经辐射场技术

2020和2021年，最火的计算机视觉技术非Transformer莫属。而除Transformer之外，最受欢迎也最有趣的技术我想应该是ECCV 2020的神经辐射场 (Neural Radiance Field, NERF) ，其核心点在于非显式地将一个复杂的静态场景用一个神经网络来建模。在网络训练完成后，可以从任意角度渲染出清晰的场景图片。

BEBLID：增强的高效局部图像特征描述符

作者提出了一种有效的图像描述符BELID。其有效性的关键是对一组图像特征进行有区别的选择，且计算量要求非常低。实验是在电脑和智能手机上进行，BELID的精确度与SIFT相似，执行时间与最快的算法ORB相当。

为什么VR视频的清晰度不高？
VR内容的清晰度一直以来广受关注，也是提升用户沉浸感体验的重要因素。不过，体验过VR视频的不少用户都会抱怨：我们看的明明是4K甚至是8K内容，可实际观感还不如手机1080P的画质。是我买了个假VR设备？还是看了个假4k内容？

基于深度学习的视觉三维重建研究总结
三维重建作为环境感知的关键技术之一，可用于自动驾驶、虚拟现实、运动目标监测、行为分析、安防监控和重点人群监护等。现在每个人都在研究识别，但识别只是计算机视觉的一部分。真正意义上的计算机视觉要超越识别，感知三维环境。我们活在三维空间里，要做到交互和感知，就必须将世界恢复到三维。所以，在识别的基础上，计算机视觉下一步必须走向三维重建。本文笔者将带大家初步了解三维重建的相关内容以及算法。

Road-SLAM：基于道路标线车道级精度SLAM
在本文中，我们提出了基于道路标记SLAM算法，该算法充分利用了从相机图像中获取的道路标记，道路标记物分类良好，信息丰富，用来实现全局定位。

活动推荐

【免费活动】字节跳动背后的音视频技术揭秘

10月29日 | 北京 LiveVideoStack将联合火山引擎的5位技术专家在本专题中，展示字节跳动背后的音视频技术，以及如何利用这些技术支撑业务发展并满足合作伙伴的需求。本次分享将从音视频编解码开始，回顾音视频编码技术并进行展望，介绍编码的优化与评估；随后，将介绍音视频在直播方面的应用和如何通过音视频支持业务的增长；最后，将以抖音为例，介绍RTC技术是如何追求极致的体验。

⏰ 活动时间：2021/10/29 14:00-18:00

???? 参与方式：线下参与

???? 报名方式：点击链接

http://livevideostack.mikecrm.com/j2buNlt 免费报名：）

【公开课预告】GVoice 千万在线语音传输的那些事

本期的主题GVoice，它为腾讯旗下的主流游戏提供低延迟语音通话服务，其特点是高并发、覆盖全球。本次分享的嘉宾许路平是GVoice后台负责人，他会详细介绍游戏业务的特点，以及GVoice针对性的架构与协议的设计原则和方法，高可用保障与成本控制，重点性能突破和未来展望等。

讲师信息：

许路平 腾讯游戏后台研发高级工程师。主要从事游戏多媒体网络传输技术，游戏对战网络传输技术，游戏网络传输优化等设计开发工作。参与王者荣耀对战网络传输，多链路通信设计开发，负责腾讯游戏语音GVoice后台架构设计和开发，成功服务于王者荣耀、和平精英，PubgM，LOL等腾讯所有自研，代理游戏，并支撑行业2000多款游戏，构筑全球千万在线语音通信平台。在确保高并发，低延时的前提下给游戏带来低成本高音质的语音体验。

⏰ 活动时间：2021. 08. 17 | 19:30

???? 观看方式：
1. 扫描上图二维码加LiveVideoStack小秘书，进群与嘉宾交流
2. 关注LiveVideoStack视频号，记得预约：）

插图源自Pexels