音视频学习笔记

weixin_34345753

于 2018-02-02 08:06:55 发布

阅读量105

点赞数

原文链接：https://juejin.im/post/5a71d0cc5188257349793b4c

版权

前言

本人自2017年年初就入职了一家做短视频社交的公司，至今也过去大半年了。但是对音视频这一块的知识可以说是几乎一无所知，
完全是一个小白，因此感到非常惭愧。所以文章的题目才定为学习笔记，甚至连‘音视频基础知识’这种题目也不敢起。做这个笔记的
目的只是希望能够激励自己不断的学习下去，希望到最后自己可以学有所成，记录下来的东西也可以帮助到更多的人。
复制代码

既然说了自己的小白，那么一切都要从头学起。所以，今天先来看一看，音视频有哪些参数，这些参数的含义又是什么。
复制代码

音频

1.音频的含义

指人耳可以听到的声音频率在20Hz~20kHz之间的声波。
复制代码

2.频率

频率这个词很熟悉，不知道是在初中还是高中的物理课本上出现的很频繁。遥想当年，算了，好汉不提当年勇。频率的单位是赫兹(Hz)，
表示声波每秒钟振动的次数，也就是说，Hz其实就是s的-1次方。
复制代码

3.振幅

振幅是指振动的物理量可能达到的最大值，通常以A表示。它是表示振动的范围和强度的物理量。在声振动中，振幅是声压与静止压强之差
的最大值。声波的振幅以分贝为单位。声波振幅的大小能够决定音强。
复制代码

4.采样频率

采样就是把模拟信号数字化的过程，不仅仅是音频需要采样，所有的模拟信号都需要通过采样转换为可以用0101来表示的数字信号。
复制代码

如上图所示，蓝色代表模拟音频信号，红色的点代表采样得到的量化数值。采样频率越高，红色的间隔就越密集，记录这一段音频信号
所用的数据量就越大，同时音频质量也就越高。
复制代码

常见的采样频率

8000 Hz —— 电话所用采样率，对于人的说话已经足够
11025 Hz - 电话所用采样率
22050 Hz - 无线电广播所用采样率
32000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
44100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD，SVCD，MP3）所用采样率
47250 Hz - 商用 PCM 录音机所用采样率
48000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50000 Hz - 商用数字录音机所用采样率
96000 Hz或者 192000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率

5.采样位数（位宽）

采样位数也叫采样大小或量化位数。它是用来衡量声音波动变化的一个参数。
如上图，每个红色采样点都需要一个数值去记录（采样位数）。这个数值的数据类型大小可以是：4bit、8bit、16bit、32bit等等，
位数越多，表示得就越精细，声音质量自然就越好，当然，数据量也会成倍增大。
复制代码

6. 声道数

由于音频的采集和播放是可以叠加的，因此，可以同时从多个音频源采集声音，并分别输出到不同的扬声器，故声道数一般表示
声音录制时的音源数量或回放时相应的扬声器数量。

常见声道数：
1. 单声道、 单声道是比较原始的声音复制形式，早期的声卡采用的比较普遍。单声道的声音只能使用一个扬声器发声，有的也处理
成两个扬声器输出同一个声道的声音，当通过两个扬声器回放单声道信息的时候，我们可以明显感觉到声音是从两个音箱中间传递到
我们耳朵里的，无法判断声源的具体位置。
2. 双声道、 双声道就是有两个声音通道，其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置。声音在
录制过程中被分配到两个独立的声道，从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用，听众可以清晰地分辨出
各种乐器来自的方向，从而使音乐更富想象力，更加接近于临场感受。
双声目前最常用途与两个，在卡拉OK中，一个是奏乐，一个是歌手的声音；在VCD中,一个是普通话配音，一个是粤语配音。
3. 四声环绕、 四声道环绕规定了前左、前右，后左、后右四个发声点，听众则被包围在这中间。同时还建议增加一个低音音箱，
以加强对低频信号的回放处理(这也就是如今4.1声道音箱系统广泛流行的原因)。就整体效果而言，四声道系统可以为听众带来
来自多个不同方向的声音环绕，可以获得身临各种不同环境的听觉感受，给用户以全新的体验。
如今四声道技术已经广泛融入于各类中高档声卡的设计中，成为未来发展的主流趋势。
4. 5.1声道、 5.1声道已广泛运用于各类传统影院和家庭影院中，其中“.1”声道，则是一个专门设计的超低音声道，这一声道
可以产生频响范围20～120Hz的超低音。其实5.1声音系统来源于4.1环绕，不同之处在于它增加了一个中置单元。这个中置单元
负责传送低于80Hz的声音信号，在欣赏影片时有利于加强人声，把对话集中在整个声场的中部，以增加整体效果。
复制代码

7.音频帧

音频跟视频很不一样，视频每一帧就是一张图像，而从上面的正玄波可以看出，音频数据是流式的，本身没有明确的一帧帧的概念，
在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间
被称之为“采样时间”，其长度没有特别的标准，它是根据编解码器和具体应用的需求来决定的，我们可以计算一下一帧音频帧的大小：
假设某通道的音频信号是采样率为8kHz，位宽为16bit，20ms一帧，双通道，则一帧音频数据的大小为：
int size = 8000 x 16bit x 0.02s  x 2 = 5120 bit = 640 byte
复制代码

8.周期

音频设备一次处理所需要的帧数，对于音频设备的数据访问以及音频数据的存储，都是以此为单位。
复制代码

9.交错模式

数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录帧1的左声道样本和右声道样本，再开始帧2的记录。
复制代码

10.非交错模式

首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道样本。
复制代码

11.比特率

比特率也叫码率，指音乐每秒播放的数据量，单位用bit表示，也就是二进制位。 bps就是比特率。b就是比特（bit），s就是秒（second），
p就是每（per），一个字节相当于8个二进制位。也就是说128bps的4分钟的歌曲的文件大小是这样计算的(128/8)*4*60=3840kB=3.8MB，
1B（Byte）=8b（bit），一般mp3在128比特率左右为益，也大概在3-4 BM左右的大小。
在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的 WAV文件中均有应用。
因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到
最大程度的无限接近。
要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，
双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2Kbps。我们常见的Audio CD就采用了PCM编码，一张光盘的
容量只能容纳72分钟的音乐信息。
双声道的PCM编码的音频信号，1秒钟需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上
听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低采样指标是不可取的，因此专家们研发了各种压缩方案。
最原始的有DPCM、ADPCM，其中最出名的为MP3。所以，采用了数据压缩以后的码率远小于原始码。复制代码