视频通信中音视频处理技术

视频通信过程中会涉及到大量的音视频处理技术,按照在通信系统中所处位置的不同,可以分为发送端和接收端的音视频处理技术。

发送端的音视频处理技术主要包括:视频帧的变换、自适应丢帧、增强;音频采样率转换、回声消除;音视频修饰等。这些技术的目的都是为视频直播提供高质量或者定制化的信号源。


对于发送端视频的处理


一、视频帧的变换

采集到的视频源首先需要进行裁剪,缩放,自适应丢帧,颜色空间转换等变换,这些作为视频处理的预处理,可以为后续操作带来速度和性能的提升。

裁剪:将帧数据裁剪或填充到4字节的整数倍,便于后续可以进行位移操作或者汇编优化;

缩放:现在手机或电脑的摄像头提供的输入视频分辨率在2K左右,如果不加缩放的提供给后续的图像处理和编码,对设备处理能力和网络传输带宽的要求会很高(2K视频一般需要4Mbps的带宽支持,才能保证基本的清晰度),尤其是对延迟很敏感的视频通信应用。所以系统实现应根据设备性能和当前网络状态,对输入视频进行缩放,以此来保证通信的低延迟和流畅。比如,我们的AI米听会检测CPU性能,再根据目标码率,计算得到一个合适的缩放比例,对视频进行预处理。缩放一般采用汇编实现,也可以借助ffmpeg中swscale工具集。


二、自适应丢帧

这个处理技术的目的和缩放类似,也是为了更好的适应设备的处理性能和网络状态。但是视频通信内容的不同,应该选择不同的处理方式。

比如,对于人像通信,适合采用缩放的方式;而对于屏幕分享,适合降低帧率。如果采用相反的技术,效果会很差。这是因为人脸大部分是低频的内容,缩放不会对人的主观视频产生明显影响,而降低帧率则会产生明显的不连续性且容易被人察觉;相反,屏幕展示内容中,包含大量的高频信息(文字,图表),如果采用降采样,则会损失大量高频信息,从而使得内容难以辨认。屏幕分享时,往往是内容的静止展示,所以此时降低帧率不会明显影响观看感受。


三、视频增强

对于摄像头质量不佳,或者低照明度的通信环境,采集到的视频帧噪声大,质量低下,这是需要对视频内容进行增强。常用的技术包括图像去噪,对比度调整,曝光度调整等。图像去噪包括经典的高斯滤波,中值滤波,Non-local mean滤波等;对比度和曝光度的调整可以基于直方图来做。


四、颜色空间转换

我们熟知的颜色空间是RGB空间,但是在视频处理和编码中往往要转换成YUV,其中Y是亮度通道,UV是两个色度通道。我们人眼对亮度的细节比色度更加敏感,根据这个特性,我们可以只对亮度通道进行处理以降低处理复杂度。编码时,保持色度通道不变而将色度通道降采样(比如RGB转换成YUV420,就是从一个像素3个字节变成了一个像素1.5个字节,原始数据量减少了一半),可以减小码率,同时又不会对人眼主观视频产生明显影响。


对于发送端音频的处理


对于发送端音频处理主要包括:转换采样率,去噪和回音消除。

转换采样率:和视频缩放和降采样一样的道理,音频可以根据设备性能和带宽需求改变采样率,来更好的适应通信环境。

去噪:如果通信方身处嘈杂的环境,那么采集到的音频会包含大量的噪声。此时可以设计合适的滤波器对波形进行滤波操作,以保留人声,去除环境噪声。

回音消除:在双向通信中,播放对方音频播放时,直接从麦克风又传给了对方,会带来回音。音频回音的影响很大,如果不加以抑制,严重时会有啸叫现象,产生刺耳且长时间保持的噪声。回音消除的原理简单可以描述为:B收到A的声音数据,通过喇叭进行播放,此时B需要对输入到麦克风中的声音进行处理,识别A的声音并去除。

音频处理涉及到大量信号处理的理论,好在很多开源库都提供了音频处理的功能,比如ffmpeg,speedx, webrtc等。


接收端的音视频处理


接收端的音视频处理技术主要是为了恢复出原始音视频信号,这里包括的技术有:视频增强,超分辨;音频去噪和混音。

视频增强:在接受端,解码得到的视频会有压缩失真,比如块效应,振铃效应等,所以也需要进行去噪等操作,提高视频质量。

视频超分辨:在发送端,会将视频缩小后进行处理和编码。那么在接收端,则需要进行放大,提高视频分辨率,提升主观感受。

音频去噪:和视频一样,音频也会受到编码影响,所以也需要进行去噪。

混音:在多人视频中,会接受到来自多方的音频信息。此时需要对各路音频进行混音,混合成一路送进扬声器进行播放。这个过程中,一般要先对波形数据进行同步,然后对波形进行叠加,为了防止破音出现,最后还要进行自动增益控制和防溢出操作。


其他功能


近年来,随着音视频通信技术的兴起,也出了很多新的玩法,比如视频美颜、表情迁移和变声等。


视频美颜:现在已经趋于成熟。主要功能是磨皮,柔光等,大都基于滤波进行操作,比如磨皮采用了双边滤波,可以在保持了人脸轮廓边缘的同时,将皮肤的瑕疵去除。


表情迁移:基于深度学习的特征学习技术,可以快速准确的对人脸器官进行定位,从而能够实现更复杂的修饰技术。比如找准嘴唇,眼睛,面颊之后,可以进行自动化妆;根据关键点和人脸角度,进行人脸映射,达到“换脸”的效果。

音频变声技术:一款比较经典的技术,可以通过改变声音波形的频率,振幅来改变音色,达到伪装声音的目的。而现在已经发展到可以让人模拟别人的声音的地步。


总结


音视频通信处理技术在实际的使用中,还是要针对不同的场景选择不同的技术。只有这样才能达到最佳的效果。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
第1章 视频的形成、感觉和表示 1.1 彩色感觉和规定 1.2 视频的捕捉和显示 1.3 模拟视频光栅 1.4 模拟彩色电视系统 1.5 数字机频 1.6 小结 1.7 习题 1.8 文献目录 第2章 视频信号的博里叶分析和人类视觉系统的频率响应 2.1 多维连续空间信号和系统 2.2 多维离散空间信号和系统 2.3 视频信号的频域特性 2.4 人类视觉系统的频率响应 2.5 小结 2.6 习题 2.7 文献目录 第3章 视频采样 3.1 点阵理论基础 3.2 在点阵上采样 3.3 视频信号的采样 3.4 摄像机和显示器的滤波作用 3.5 小结 3.6 习题 3.7 文献目录 第4章 视频采样率转换 4.1 在不同点阵上采样信号的转换 4.2 视频信号的采样率转换 4.3 小结 4.4 习题 4.5 文献目录 第5章 视频模型 5.1 摄像机模型 5.2 照明模型 5.3 物体模型 5.4 场景模型 5.5 二维运动模型 5.6 小结 5.7 习题 5.8 文献目录 第6章 二维运动估计 6.1 光流 6.2 一般方法 6.3 基于像素的运动估计 6.4 块匹配算法 6.5 可变形块匹配算法 6.6 基于网格的运动估计 6.7 全局运动估计 6.8 基于区域的运动估计 6.9 多分辨率运动估计 6.10 运动估计在视频编码中的应用 6.11 小结 6.12 习题 6.13 文献目录 第7章 三维运动估计 7.1 基于特征的运动估计 7.2 直接运动估计 7.3 迭代运动估计 7.4 小结 7.5 习题 7.6 文献目录 第8章 现频编码基础 8.1 编码系统概述 8.2 概率论和信息论中的基本概念 8.3 信源编码的信息理论 8.4 二进制编码 8.5 标量量化 8.6 矢量量化 8.7 小结 8.8 习题 8.9 文献目录 第9章 基于波形的视频编码 9.1 基于块的变换编码 9.2 预测编码 9.3 采用时间预测和变换编码的视频编码 9.4 小结 9.5 习题 9.6 文献目录 第10章 基于内容的视频编码 10.1 二维形状编码 10.2 对于任意形状区域的纹理编码 10.3 形状与纹理联合编码 10.4 基于区域的视频编码 10.5 基于物体的视频编码 10.6 基于知识的视频编码 10.7 语义视频编码 10.8 分层编码系统 10.9 小结 10.10 习题 10.11 文献目录 第11章 可分级视频编码 11.1 可分级性的基本模式 11.2 基于物体的可分级性 11.3 基于小波变换的编码 11.4 小结 11.5 习题 11.6 文献目录 第12章 立体和多视序列处理 12.1 深度感觉 12.2 立体成像原理 12.3 位差估计 12.4 中间视图合成 12.5 立体序列编码 12.6 小结 12.7 习题 12.8 文献目录 第13章 视频压缩标准 13.1 标准化 13.2 采用H.261和H.263的视频电话 13.3 可视通信系统的标准 13.4 采用MPEG-1的消费视频通信 13.5 采用MPEG-2的数字电视 13.6 采用MPEG-4的音视频对象编码 13.7 视频比特流语法 13.8 采用MPEG-7的多媒体内容描述 13.9 小结 13.10 习题 13.11 文献目录 第14章 视频通信中的差错控制 14.1 动机和方法概述 14.2 典型的视频应用系统和通信网络 14.3 传输层差错控制 14.4 差错复原编码 14.5 解码器错误隐藏 14.6 编码器一解码器交互的差错控制 14.7 H.263和MPEG-4中的差错复原工具 14.8 小结 14.9 习题 14.10 文献目录 第15章 因特网和无线IP网络上的流视频 15.1 视频流系统的结构 15.2 视频压缩 15.3 流视频的应用层QoS控制 15.4 连续媒体发布服务 15.5 流服务器 15.6 媒体同步 15.7 流视频协议 15.8 无线IP网络上的流视频 15.9 小结

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值