【音视频】音视频入门基础

1、音视频学习路线

对于音视频来说,通常包括以下4个方面的知识: 

  • 采集:把视频、声音从设备上抽样采集;
  • 渲染:即播放展示;
  • 处理:包括去噪、回声消除、混音、特效、转场等;
  • 传输:上传、直播;

下面先来了解音视频的基本知识

2、音视频封装格式

我们日常所看到的音频视频的后缀格式,比如mp3、avi、rmvb等,它们其实是音视频的封装格式,也就是说,把音频、视频打包成一个统一约定的格式文件,类似于word文档后缀是.word一样;只不过,由于约定的组织、公司标准以及算法侧重点不同,目前有比较多的封装格式。

(1)音频格式

  • mp3:  MPEG 移动图像专家组出品的格式,使用最为广泛,有损压缩格式,压缩比例较高,通常是4到10倍左右的压缩比;
  • wmv:微软以及IBM联合出品的格式,最接近无损的格式,体积较大,通常用于专业电影音乐录制;
  • aac: 由杜比实验室联合其他公司推出的格式,采用了更高效的编码算法,压缩比例比MP3更高,通常可以达到18:1,而音质也没差,反而更好,所以也被广泛应用;

(2)视频格式

这里列出常用的几种:

格式名称

提出组织

提出时间

特点

mov

apple

1991

苹果专属格式,对其他系统播放器兼容不友好

rmvb

Real Network

1997

针对不同的网络传输速率而提供不同的压缩比率,具有体积小,传输效率高等优点;

avi

微软

1992

算法简单,缺点是体积大

mkv

Matroska

2002

最有包容性的格式,可以容纳无限量、多种不同类型编码的视频音频;

wmv

微软

2003

微软的专用格式,兼容性也不是很好

Mp4

MPEG

1998

最常用的有损压缩格式,好处是通用性强,体积小,但压缩后有损失

3、音视频编码格式

所谓编码:就是通过特定的压缩技术,把某种音频、视频格式文件转成另一个音频、视频格式,一般是从大体积文件压到小体积文件,然后便于存储和传输;

(1)视频编码

可以分为3个体系格式:

  • MPEG : 运动图像专家组的缩写,是由ISO(国际标准组织机构)下属组织,由300多个分别来自IBM、NEC 等大企业专家工程师组成的组织,这个组织推出了视频以及音频的格式,比如VCD、DVD都是分别对应之格式MPEG1、MEPG2;他们提出了MPEG Audio Layer 1/2、MPEG Audio Layer 3(mp3)、MPEG-2 AAC 、MPEG-4 AAC等标准;
  • H.26x 系列: 由ITU 主导的,侧重于网络传输,但它只推出视频编码的格式,目前包括H.261 ~ H.265;应用最广泛的是H.264, H.265 于2012年推出,还处于小规模应用界面;
  • AVS :  我国自主研发的编码协议,目前推出都第一代以及第二代,更多阅读。AVS1与H.264 性能相近,而AVS2 则对标参考了H.265,性能相同;国家之所以推出这个自主协议,是因为H.264/5 的专利许可策略过于苛刻,付费商用不合理,并且容易受到美国制约;所以出于专利限制与信息安全角度,AVS 有重要意义,目前已经在我国的电视广播上广泛应用;

(2)音频编码

与上面音频封装格式一样,常用的有3种: 

  • AAC: 性价比最高的有损压缩格式;
  • MP3: 利用人耳对高频信号不敏感的特性,大幅度压缩高频信号,小压缩低频信号,从而得到较好的压缩比;
  • AC3: 有损编码格式,被广泛应用于5.1 声道,对音乐的立体效果呈现能力强,被广泛应用于DVD唱片以及电影院;

4、音视频链路理解

4.1 采集

采集从2个方面收集数据: 

  • 声音: 麦克风,需要知道:声道,采样率,通道号,位宽等参数,输出的音频文件格式是PCM;
  • 视频: 采集工具是摄像头,输出的视频格式是NV21,NV12,I420等;

(1)采样率

学过电子的同学可能知道,我们数字上把一个信号量是否可以连续划分为模拟信号以及数字信号,模拟信号就是在一个时间段内变化是连续的一个信号,所有的物理量都可以用模拟信号来表示,比如声音、光、温度、压力以及位移等。

 

那么这里,对于声音来说,我们需要把这种物理量转换成模拟信号,然后转为数字信号才可以在计算机上传输。

由于模拟信号是连续的,所以我们需要以一定的区间间隔来采集,这个过程就叫采样。

而根据奈奎斯特的抽样定理,只要采样的频率不低于最高音频频率的2倍,就可以无损还原原来音频信号.

 

通常人耳能听到频率范围大约在20Hz~20kHz之间的声音,为了保证声音不失真,采样频率应在40kHz以上。常用的音频采样频率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz、96kHz、192kHz等。

 

(2)位宽

上图中,每一个红色点的采样点都需要一个数值来表示,那么这个数值的上限范围是多少呢? 则是可以自定义的,这个值就叫位宽。位宽越高,可表示的范围就越大,那么音频信号被还原的就会越清晰,当然,对应的数据量也随之增大。

常用的位宽是 8bit 以及 16bit;

(3)声道

看过3D电影的都知道,声音是立体的,如果是单音响发出的声音,就叫单声道;虽然声音内容不变,但整体体验是欠佳的;而声音是可以叠加的,所以,人们经过研究发现,多个不同音响从不同位置发出来的声音叠加起来,整体立体效果是更好的。

所以,声道数就代表着发出声音的扬声器数量。

常见声道有单声道、立体声道、4声道、5.1声道、7.1声道等;

  • 单声道:一个扬声器;
  • 立体声道:左右对称的两个扬声器,左右声道;
  • 4声道:规定了4个发音点,分别是前左、前右、后左、后右,听众在中间;
  • 5.1 声道: 基于4声道变化,分别是左声道、右声道、左环绕、右环绕,中置声道,以及中间增加低音效果;
  • 7.1 声道: 在5.1 声道基础上,增加中左中右两个发音点;

4.2 渲染

渲染解决的是如何把上面采集到的数据展示出来,让用户听到看到的问题;

不同系统提供了不同的解决方案,对于移动终端来说:

Android:ImageView,SurfaceView,TextureView,OpenGL 等
iOS: CoreGraphics,OpenGL 等

可以看到OpenGL是跨平台的解决方案。

4.3 处理

处理针对图片、音频以及视频有不同的处理方式,下面列出主要的方式以及开源库

 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值