ios音频相关基础知识

最新推荐文章于 2022-08-01 08:59:08 发布

异界工程师

最新推荐文章于 2022-08-01 08:59:08 发布

阅读量608

点赞数 1

分类专栏： ios 文章标签： audio pcm acc ios音频 vbr

本文链接：https://blog.csdn.net/huayu_huayu/article/details/53740885

版权

ios 专栏收录该内容

22 篇文章 2 订阅

订阅专栏

最近在看音频相关的知识，然后就搜集了些基础知识记录下来，以便日后查看和供需要的人学习

1.音频(audio)

指人耳可以听到的声音频率在20HZ~20kHz之间的声波，称为音频。

2.音频采样(audio sample)

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的

速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一

秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围（相当于音调），

可以用数字波形表示。以波形表示的频率范围通常被称为带宽。要正确理解音频采样可以分为采样的位数和采样的频率。

注：按我的粗暴理解是，如果声音数据都采集，那就可能一段话就很多数据，数据太大了，比如夸张打比方，一段话采集来存储的话有几个G,那还得了，

所以要想办法解决，可能恰好按时间细分下来，这一段的声音区别不大，比如一秒内，我只采集几个，连起来能听出是这一秒表达的意思不就可以了嘛，

想想看，人耳对于一秒内的声音又能区别到什么程度。

3.音频采样率(aduio sample rate)

音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共

分为22.05KHz、44.1KHz、48KHz三个等级，22.05KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。人

耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论，只有采样频率高于

声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音，所以音频文件的采样率一般在40~50KHZ，比如最常见的CD音质采样率

44.1KHZ。

4.PCM

对声音进行采样、量化过程被称为脉冲编码调制（Pulse Code Modulation），简称PCM。PCM编码就是通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字信号。PCM数据是最原始的音频数据，完全无损，所以PCM数据虽然音质优秀但体积庞大，为了解决这个问题先后诞生了一系列的音频格式，这些音频格式运用不同的方法对音频数据进行压缩，其中有无损压缩（ALAC、APE、FLAC）和有损压缩（MP3、AAC、OGG、WMA）两种。

注：我们ios能操控的最原始的数据就是这厮，记住它！

5.通道数(channel)

即声音的通道的数目。常有单声道和立体声之分，单声道的声音只能使用一个喇叭发声（有的也处理成两个喇叭输出同一个声道的声音），立体声可以使两个喇叭都发声（一般左右声道有分工），更能感受到空间效果，当然还有更多的通道数。

6.帧(frame)

帧记录了一个声音单元，其长度为样本长度(采样位数)和通道数的乘积。

7.周期(cycle)

音频设备一次处理所需要的帧数，对于音频设备的数据访问以及音频数据的存储，都是以此为单位。

8.交错模式(interleaved mode)

数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录帧1的左声道样本和右声道样本，再开始帧2的记录...

9.非交错模式(non interlaced mode)

首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道样本。

10.比特率(bit rate)

每秒的传输速率(位速, 也叫比特率)。如705.6kbps 或 705600bps, 其中的 b 是 bit, ps 是每秒的意思，表示每秒705600bit的容量。

11.VBR

VBR也称为动态比特率编码，使用这个方式时，你可以选择从最差音质/最大压缩比到最好音质/最低压缩比之间的种种过渡级数，在MP3文件编码之时，程序会尝试保持所选定的整个文件的品质，将选择适合音乐文件不同部分的不同比特率来编码。主要优点是可以让整首歌的音质都能大致达到我们的品质要求，缺点是编码时无法估计压缩后的文件大小。

12.ABR

ABR （Average Bitrate）平均比特率，是VBR的一种插值参数。Lame针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR也被称为“Safe VBR”，它是在指定的平均Bitrate内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量。举例来说，当指定用192kbps ABR对一段wav文件进行编码时，Lame会将该文件的85%用192kbps固定编码，然后对剩余15%进行动态优化：复杂部分用高于192kbps来编码、简单部分用低于192kbps来编码。与192kbps CBR相比，192kbps ABR在文件大小上相差不多，音质却提高不少。ABR编码在速度上是VBR编码的2到3倍，在128-256kbps范围内质量要好于CBR。可以做为VBR和CBR的一种折衷选择。

13.CBR

CBR（Constant Bitrate），常数比特率，指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，但音质却不会有明显的提高。

14.Eq

eq均衡器定义EQ是Equalizer的缩写，中国大陆地区称呼为均衡器，港台地区称呼为等化器。它的作用就是调整各频段信号的增益值。普通百姓最初接触均衡器是在80年代的高级录放机上，当年的高档录放机都带有N段均衡调节，那个调节器就是均衡器。EQ通过将声音中各频率的组成泛音等级加以修改，专为某一类音乐进行优化，增强人们的感觉。常见包括：正常、摇滚、流行、舞曲、古典、柔和、爵士、金属、重低音和自定义。自定义就是自己调节，没有套用固定的模式，按个人喜好而定的真正EQ能够满足了不同的个人听音喜好。

15.MP3

MP3是利用人耳对高频声音信号不敏感的特性，将时域波形信号转换成频域信号，并划分成多个频段，对不同的频段使用不同的压缩率，对高频加大压缩比（甚至忽略信号）对低频信号使用小压缩比，保证信号不失真。这样一来就相当于抛弃人耳基本听不到的高频声音，[1] 只保留能听到的低频部分，从而将声音用1∶10甚至1∶12的压缩率压缩。由于这种压缩方式的全称叫MPEG Audio Player3，所以人们把它简称为MP3。

16.ACC

AAC是高级音频编码（Advanced Audio Coding）的缩写，出现于1997年，最初是基于MPEG-2的音频编码技术。由Fraunhofer IIS、Dolby Laboratories、AT&T、Sony等公司共同开发，目的是取代MP3格式。2000年，MPEG-4标准出台，AAC重新集成了其它技术（PS,SBR），为区别于传统的MPEG-2 AAC，故含有SBR或PS特性的AAC又称为MPEG-4 AAC。

AAC是新一代的音频有损压缩技术，它通过一些附加的编码技术（比如PS,SBR等），衍生出了LC-AAC,HE-AAC,HE-AACv2三种主要的编码，LC-AAC就是比较传统的AAC，相对而言，主要用于中高码率(>=80Kbps)，HE-AAC(相当于AAC+SBR)主要用于中低码(<=80Kbps)，而新近推出的HE-AACv2(相当于AAC+SBR+PS)主要用于低码率(<=48Kbps）,事实上大部分编码器设成<=48Kbps自动启用PS技术，而>48Kbps就不加PS,就相当于普通的HE-AAC。