当今社交和通讯方式早就已经不局限于文字和语音,视频通话成为了越来越流行的方式。然而,找到一个高质量的视频通话应用程序是一项相当大的挑战。很多视频通话应用面临着画面不清晰、语音不流畅、卡顿过多、功能单一等问题。网易云信作为实时视频通信行业内领先的服务提供商,在上述问题中有着成熟且优质的方案。
01 网易云信在视频画面的优化:
在视频实时通信服务中,视频质量体验(Quality of Experience,简称 QoE)是衡量视频通信画面流畅和清晰程度的重要指标。用户的设备和网络环境不尽相同,因此,在复杂的网络服务质量 (Quality of Serverice,简称 QoS)下,在参差不齐的硬件终端上取得最佳的视频体验质量 (Quality of Experience,简称 QoE) ,是众多视频实时通信服务在运行上的难点。
网易云信采用视频质量控制器(Video Quality Controller,简称 VQC)模块, 在提升视频 QoE 方面有着不俗的成效。视频的 QoE 主要包含视频的清晰度、视频流畅度、视频延时三个方面的指标,整体上由网络 QoS、视频处理算法、VQC 共同决定。在提供尽可能充分的可使用带宽和利用视频处理算法的前提下,VQC可以控制码率,保证QoS下视频的流畅,以及减少延迟。同时VQC也对视频算法负责,提升算法性能,平衡清晰度和流畅度。VQC 通过对视频 QoS 状态、视频算法状态的监控,输出控制信号,达到场景化的最佳 QoE 表现,包括平衡清晰度、流畅度、延时这几个指标。
VQC 决策模块会结合用户的场景设置,决策当下的视频策略。其内部包含两个状态机以及一个决策模块。
两个状态机相互独立,互不影响:
- 视频质量状态机
- 性能情况状态机
决策模块中包含着以下重要功能:
- 根据用户设置的场景以及期望视频参数,设置各种内部调整的阈值
- 根据状态机的结果,决策提高或者降低视频的参数 (分辨率、帧率),以及提高或者降低的策略
- 根据其他信息,决策当前帧编码的其他参数,比如 simulcast 双流场景下大流或者小流是否编码
- 根据其他信息,决定算法是否需要调整,比如编码算法,后处理算法等
决策模块根据不同的运行情况,采取了不同的措施,从而高效地解决了在复杂网络环境下视频画面的质量的问题。
02 基于神经网络和AI的音频技术:
基于神经网络和人工智能的音频技术已经成为音频领域的一个重要发展方向。通过深度学习和机器学习等技术,可以有效地提高音频通信服务的质量和效率,同时也可以为其他产业带来全新的技术支持。网易云信音频实验室一直致力于改善音频通讯服务,为用户提供更加清晰和流畅的音频输入和输出。通过将人工智能技术应用于音频领域,在音频技术的发展方面取得了许多突破性成果。其中,基于卷积递归神经网络(CRNN)的方法已成功应用于RTC应用中的啸叫检测,实现了出色的准确性和低误报率,为实时通信(RTC)场景下的啸叫检测提供了一种有效的解决方案。
除了啸叫检测,网易云信音频实验室还在音频降噪和音乐检测等方面进行了深入研究,并获得了业界权威认可。云信自建的国内行业中首个AI音乐检测模型在第50届国际噪声控制工程会议(INTER-NOISE 2021)上受到了高度关注。这一成果不仅为音乐产业提供了全新的技术支持,也为音频技术的发展注入了新的活力。此外,基于神经网络和AI的音频技术还可以帮助音频领域解决一些难题,如音频信号的失真、噪声干扰、回声消除等问题。这些技术的应用可以提高音频通信服务的可靠性和稳定性,为用户提供更加优质的音频体验。
网易云信音视频通话产品和音频实验室的基于神经网络和AI的音频技术已经成为音频领域的一个重要发展方向,为用户提供了高质量的音频通讯服务,同时也为音频技术的蓬勃发展做出了贡献。随着技术的不断发展和创新,我们可以期待这些技术在未来的音频通讯服务行业发挥更加重要的作用。
03 减少视频通话卡顿的自研技术和架构:
为了做到在视频实时通信服务中减少卡顿,网易云信搭建设计了一套不同的架构:客户端层、网关接入层、路由层、业务层。这些层级被分别进行处理,从而提升数据传输的效率。在通信安全方面,对客户端与服务器端之间的通信数据都做了加密压缩处理,一则帮用户节省了网络流量,提高数据传输效率,二则保证了通信数据的安全性,规避数据泄露或中间人攻击等各种安全风险。
造成卡顿的最常见的原因是高并发的业务。在一些大型视频活动期间,一个视频通话里通常会承载数量巨大的用户同时在线,高并发造成的服务器崩溃是所有产品运营团队无法接受的,企业和开发者们总是希望无论多少人同时在线都不会出现问题。此类情况下,对于线上大型频道的监管就显得格外重要。通过云信音视频质量分析系统,可对线上大型频道的数据质量进行差异化对比分析,并制定相应优化措施以保障活动平稳顺利落地。
卡顿的第二大原因就是传输链路,高并发场景下,用户的暴增导致传输链路压力增大,就容易导致延迟卡顿,因此一个更直接的直播传输链路就能有效地杜绝卡顿和延迟的问题。
在这些背景下,网易云信自研的新一代大规模分布式传输网络——WE-CAN(Communications Acceleration Network)诞生了。它不仅可以大大提高端到端的通信质量,保障低延时传播,并且能够适用于多种应用场景,实现了:
-
- 每日传输千亿条消息和数亿分钟媒体流数据;
- 在亚太、中东、欧洲、北美、北非等地区也都有节点覆盖,中国国内每个省级单位都有大量边缘节点,覆盖全球 200+ 地区;
- 在国内音视频传输中做到了超过99.9%的网内优质传输率,端到端优质传输率超过99%
- 跨国通信接近,专线质量,全球范围内延迟不超过250ms。
04 多样的功能:
网易云信的音视频通话产品最新版本中还集成了基于音频效果器的变声美声系列功能,方便娱乐社交用户开发相关应用。常见音频效果器包括变速变调、混响、滤波均衡、调制、振幅/压限、延迟、方位调节,以及一些失真或者非线性类的特殊处理。网易云信的变声美声模块包括EQ、混响、时域尺度变换等一系列技术,可以方便快捷地进行调用,以满足用户对于音频效果器的需求。
在视频方面,网易云信采用AI算法和人脸识别技术,提供美颜美型、滤镜特效、道具贴纸、智能分割、手势识别、人脸检测、背景切换等能力,全方位提升人脸美颜效果,提供丰富多样的视频特效玩法。在这些技术的加持下,1 对 1 社交场景的音视频通话下,人与人坦诚直面,使得用户在保证双方音视频通话质量的基础上,保持更赏心悦目的体验。云信精准的美颜美肤功能,相比于市场上的其他美颜功能,针对人物画面,对人脸识别、清晰度、效果程度进行专业调优,并适配各类中低端智能手机,无论用户在何种环境下,都能够体验美颜带来的自信。
此外,由于直播、短视频等应用的爆发,对音频效果器和AI美颜技术的需求也在不断增加。在这个大背景下,网易云信还会不断增加新的音视频效果,为用户提供更多好玩好用的功能。
更多音视频详情或想获得完整版资料✉我立即get~(LTT936)
《网易数智年度技术精选合集》
《2023泛娱乐出海白皮书》
《2023年全球即时通讯(IM)PaaS市场洞察白皮书》