【学习】从零开始的Android音视频开发（1）——基础知识

最新推荐文章于 2024-05-12 23:31:33 发布

Panic Lin

最新推荐文章于 2024-05-12 23:31:33 发布

阅读量1.2k

点赞数 2

分类专栏： Android音视频开发文章标签：音视频学习 android

本文链接：https://blog.csdn.net/PanicLin/article/details/123469665

版权

Android音视频开发专栏收录该内容

14 篇文章 32 订阅

订阅专栏

视频编码

视频编码指通过特定的压缩技术，将某个视频格式文件转换成另一个视频格式文件的方式。视频编码分为两个系列

1.MPEG系列

视频编码方面有MPEG1(VCD使用它)、MPEG2(DVD使用它)、MPEG4(DVDRIP使用的都是它的变种、如DivX,XviD等)、MPEG4 AVC(正热门)。音频编码方面有MPEG Audio Layer 1/2、MPEG Audio Layer 3(MP3)、MPEG-2 AAC、MPEG-4 AAC等。注意，DVD音频没有采用MPEG的

2.H.26X系列

侧重网络传输，视频编码有H.261、H.263、H.263+、H.263++、H.264(与MPEG4 AVC合作的结晶)。

音频编码

1.AAC

一种专为声音数据设计的文件压缩格式，与MP3相比它采用了全新的算法进行编码，更加高效，具有更高的性价比。利用AAC格式，在感觉声音质量没有明显降低的前提下可使文件更加小巧。
优点：相比MP3音质更佳，文件更小
缺点：是有损压缩格式，与时下流行的APE、FLAC等无损压缩格式相比音质存在本质上的差距。加之传输速度更快的USB3.0和大容量MP3正在加速普及使得AAC头上小巧的光环逐渐黯淡。

2.MP3

一种音频压缩技术，全称是动态影像专家压缩标准音频层面。它被设计用来大幅度地降低音频数据量。利用MP3技术，将音乐以1：10甚至1：12的压缩率，压缩成容量较小的文件，对于大多数用户来说，重放的音质与最初的不压缩音频相比没有明显下降。特点是利用人耳对高频声音信号不敏感的特性，将时域波形信号转换成频域信号,并划分成多个频段，对不同的频段使用不同的压缩率，对高频信号使用大压缩率，低频信号使用小压缩率，保证信号不失真，这样一来就相当于抛弃人耳基本听不到的高频声音，只保留能听到的低频部分。

3.AC3

全称为Audio Coding Version 3，是Dolby实验室发展的有损音频编码格式。AC3被广泛应用于5.1声道，是Dobly Pro Logic的继承者，AC3提供了6个独立的声道而Pro Logic混合其环绕声道，AC3普及率很高，以384到448kb/s的码率应用于激光唱片和DVD，也经常以640kb/s的码率广泛应用于电影院。它提供的环绕声系统由5个全频域声道和一个超低音声道组成，被称为5.1声道。5个全频域声道包括左前、中央、右前、左后、右后。超低音声道主要提供一些额外的低音信息。

多媒体播放组件

1.MediaPlayer:播放控制

2.MediaCode：音视频编解码

3.OMX：多媒体部分采用的编解码标准

4.StageFright:一个框架，替代之前的OpenCore，主要做了一个OMX层。它以共享库的形式存在，其中的module–NuPlayer/AwesomePlayer可用来播放音视频，提供了许多API给上层调用

5.AudioTrack:音频播放

常见多媒体框架及解决方案

1.VLC：Video LAN Client,是一款自由，开源的跨平台多媒体播放器及框架
2.FFmpeg:多媒体解决方案
3.GStreamer:一套构建流媒体应用的开源多媒体框架

相关知识点

1.帧率

用于测量显示帧数的量度。测量单位每秒显示帧数（fps）或者赫兹Hz

2.分辨率

视频成像产品所形成的图像大小或尺寸

3.刷新率

屏幕每秒画面被刷新的次数，可分为垂直刷新率和水平刷新率，一般提到的刷新率通常指垂直刷新率，它表示屏幕上图像每秒重绘多少次，以Hz为单位。刷新率越高图像越稳定越自然清晰，对眼睛影响也小，越低图像闪烁和抖动越厉害，眼睛疲劳的越快。一般来说80Hz以上刷新率可以完全消除图像闪烁和抖动感。

4.编码格式

编码的目的是压缩数据量，采用编码算法压缩冗余数据，常见编码格式有MPEG(-2 -4)、H.26X(263、264/AVC、265/HEVC)

5.封装格式

把编码后的音视频数据以一定格式封装到一个容器，格式有MKV、AVI、TS等

6.码率

也就是比特率，是单位时间播放连续的媒体（如压缩后的音视频）的比特数量。越高带宽消耗的越多，比特就是二进制里面最小的单位（1/0）文件大小(b)=码率(b/s)*时长(s)

7.DTS与PTS

DTS即Decode Time Stamp，用于标示读入内存的比特流在什么时候开始送入解码器中进行解码。PTS即Presentation Time Stamp，用于度量解码后的视频帧什么时候被显示出来

8.YUV与RGB

YUV是一种颜色编码方法（属于PAL），是PAL和SECAM模拟彩色电视制式采用的颜色空间模型，Y代表亮度，UV代表色差，U和V是构成颜色的两个分量。RGB是一种颜色空间模型，通过对red green blue3个颜色通道的变化以及它们之间相互叠加来得到各种各样的颜色。

9.视频帧及音频帧

常见视频帧有I,P,B帧等。
I帧表示关键帧，可以理解为这一帧画面的完整保留，解码时只需要本帧数据就可以完成（因为包含完整画面）。
P帧表示这一帧和之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别生成最终画面（也就是差别帧，P帧没有完整画面数据，只有与前一帧的画面差别的数据）。
B帧也就是双向差别帧，记录的是本帧与前后帧的区别（具体比较复杂有四种情况）。要解码B帧不仅要取得之前的缓存画面还要解码之后的画面，通过前后画面数据与本帧数据的叠加取得最终画面，但是解码时CPU比较吃力。
音频帧与编码格式相关，它是各个编码标准自己实现的。
对PCM(未经编码的音频数据)来说，它根本就不需要帧的概念，根据采样率和采样精度就可以播放。比如采样率为44.1kHz，采样精度为16位的音频，你可以算出比特率是4410016kb/s，每秒的音频数据是固定的4410016/8字节。
AMR帧比较简单，它规定每20ms的音频是1帧，每一帧音频都是独立的，有可能采用不同的编码算法以及不同的编码参数。
MP3帧复杂一点，包含了采样率，比特率等各种参数：音频数据帧个数由文件大小和帧长决定，每一帧的长度可能不固定，也可能固定，由比特率决定，每一帧又分为帧头和数据实体两部分，帧头记录了MP3的比特率，采样率，版本等信息，每一帧之间互相独立。

10.量化精度

表示可以将模拟信号分成多少个等级，量化精度越高，音乐的声压振幅越接近原音乐。单位是bit，CD标准的量化精度是16bit，DVD标准的是24bit.也可以理解为1个采样点用多少bit表示。

11.采样率

指每秒音频采样点个数，单位用Hz表示。

12.声道

指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。
常见声道：单声道、立体声道、4 5.1 7.1声道等
单声道：一个扬声器
立体声道：把单声道一个扬声器扩展为左右对称的两个扬声器，声音在录制过程中被分配到两个独立的声道，从而达到了很道德声音定位效果。听众可以清晰地分别出各种乐器来自何方。
4声道：规定了四个发声点：前左，前右，后左，后右。4.1增加了一个低音音箱加强了对低频信号的回放处理
5.1声道：来源于4.1，将环绕声道一分为二，分为左环绕和右环绕，中央位置加重低音效果。
7.1声道：在5.1基础上又增加了中左和中右两个发音点，简单来说就是建立起一套前后相对平衡的声场，增加了后中场声道。