嵌入式之音频基础知识汇总

卓学电子

已于 2024-06-18 14:33:29 修改

阅读量2.9k

点赞数 8

分类专栏：卓学笔记文章标签：音视频

于 2024-05-25 22:58:38 首次发布

本文链接：https://blog.csdn.net/weixin_42107504/article/details/139203756

版权

卓学笔记专栏收录该内容

6 篇文章

订阅专栏

声音特性

1、响度：人主观上感觉声音的大小（俗称音量），由“振幅”和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大；

2、音调：声音的高低，由“频率”决定，频率越高音调越高。（频率单位Hz，赫兹，人耳听觉范围20～20000Hz。20Hz以下称为次声波，20000Hz以上称为超声波）

3、频率是每秒经过一给定点的声波数量，它的测量单位为赫兹，是以海因里希·鲁道夫·赫兹的名字命名的。此人设置了一张桌子，演示频率是如何与每秒的周期相关的。

4、1千赫或1000赫表示每秒经过一给定点的声波有1000个周期，1兆赫就是每秒钟有1，000，000个周期，等等。

5、音色：又称音品，波形决定了声音的音色。声音因物体材料的特性而不同，音色本身是一种抽象的东西，但波形是把这个抽象直观的表现。波形不同，音色则不同。不同的音色，通过波形，完全可以分辨的。

6、乐音：有规则的让人愉悦的声音。噪音：从物理学的角度看，由发声体作无规则振动时发出的声音；从环境保护角度看，凡是干扰人们正常工作、学习和休息的声音，以及对人们要听的声音起干扰作用的声音。

7、音调，响度，音色是乐音的三个主要特征，人们就是根据他们来区分声音。

8、当两个物体碰撞后振动产生声音时，若两者振动频率比为不可化简的复杂比，如：201：388，那么我们分辨出来会觉得这个声音刺耳；相反，若两者振动频率比为可化简的简单比。

dB分贝单位

分贝（dB）是一个对数单位（logarithmic unit）, 它和很多常见的单位如“米”，“秒”或者“千克”等物理单位是不同的，它并不能直接用来描述一个物理量的大小或者多少，它表示的是两个相同单位物理量的比值:

在声学领域，dB经常用作为表征声压级SPL（Sound Pressure Level）的大小。声压的单位是帕斯卡，Pa，声压的参考值是20μPa，这个值表示人耳在1000Hz处的平均可听阈值，或者是人耳在1000Hz处可被感知的平均最小声压波动值。

分贝的计算还需要一个选择一个特定的声压值作为“基准值”（0分贝），该值是固定的。有了这个基准值后代入下面的公式。

其中，P是声压测量值；PrefPref是标准值（0dBSPL）。这里选择的声压基准值为2×10−5Pa。人耳可听的声压幅值波动范围为2×10^-5Pa~20Pa，而用幅值dB表示时对应的dB数值仅仅为0~120dB。代入如下公式计算：

（1）I=20*lg(2×10^-5/(2*10^5))= 20*lg1=20*0 =0；即2×10^-5Pa对应0dB

（2）I=20*lg(20/(2*10^5))= 20*lg(10^6)=20*6 =120；即20Pa对应120dB

（3）10米外开过汽车大约是0.2Pa：代入得：I=20*lg(0.2/(2*10^5))= 20*lg(10^4)=20*4 =80dB

用图表表示声压幅值和分贝数如下表所示：

dB值可正可负。正值表示增大，负值表示衰减。若x/x0<1，则dB值为负值。也就是说测量值大于参考值的为正，小于参考值的为负。幅值比互为倒数时，dB值互为正负。这是因为：

dB值与线性幅值比的关系如下表所示：表中红色字体表示的是几个比较重要的dB值，我们应该要记住，因为我们经常要用到它们。像dB增大6dB表示线性幅值增大一倍。

电信号描述声音强度dBm,dBu,dBV

总结：

dBSPL，使用声压作为被测量，选择20uPa作为基准值(通常所说的dB)。

dBm，使用功率作为被测量，选择1mW作为基准值。

dBu，使用电压作为被测量，选择0.775V作为基准值。

dBV，和dBu一样，使用电压作为被测量，选择1V作为基准值。

dBFS，和上面的量都不相同，上面的量都是测量模拟值的，dBFS是测量数字音频的，其选择的基准值为sample的最大值为0dBFS，其他的值都为负值。dBFS和模拟量之间的转换，例如dBu，需要规定一个基础的对应关系

耳机

3.5mm插头是指直径为3.5mm的同轴音频插头；从端部到根部依次是左声道、右声道、地线，其中左声道常用红色线皮，右声道常用白色的；下图使用的是国际标准；

线控类型大致有这几种，音量滑块带麦线控、单键带麦和多键带麦。原理电路图上不难看出，不同的按键下串入了不同的电阻，当按键被按下后不同的电阻被接入到了回路当中，麦克风正极接收到的信号也随之发生改变；手机判断用户对线控做了哪些操作都是通过麦克风正极输入的信号变化来判断的。

喇叭（扬声器）

喇叭（扬声器）的工作原理

喇叭（扬声器）的工作原理主要基于电声换能器件的原理。当交流音频电流通过扬声器的线圈（音圈）时，音圈中产生相应的磁场。这个磁场与扬声器上自带的永磁体产生的磁场相互作用，产生力使音圈在永磁体的磁场中振动。由于扬声器的振膜和音圈是连在一起的，振膜也会随之振动，从而产生与原音频信号波形相同的声音。

具体来说，喇叭的底部有一颗磁铁，其磁场方向固定不可改变。通电的线圈在通电时也能产生磁场，形成“第二颗磁铁”。由于使用的是交流电，这第二颗磁铁的磁场方向会随时间改变。当音圈通电时，其产生的磁场与永磁铁的磁场相互作用，导致音圈振动。交流信号驱动音圈产生电磁场后，便会在磁体作用下按信号频率运动，使音圈沿着轴向振动，带动纸盆使周围大面积的空气发生相应的振动，从而将机械能转换为声能，发出悦耳的声音。

简单理解就是电流大小和方向使磁铁的位置发生变化，带动纸盘震动！

日常见到的扬声器中，95% 都是动圈扬声器，它一般由驱动，悬挂，支撑等部分构成。

扬声器主要技术指标

1.功率：最大额定功率是指扬声器不会引起损坏所能承受的最大功率，最小推荐功率指为产生合适的声压所需要的输入电功率。一般建议提供给喇叭2-3倍的最大额定功率，让喇叭有足够的动态，减少失真。

2.频率响应：频响曲线反映的是电声设备在不同频率上能够发出多大的声音。理想中的扬声器当然是能在人耳听力范围，也就是 20 Hz - 20 kHz 上的每个频率都发出大小一致的声音

3.标称阻抗：扬声器的标称阻抗用以与功率放大器输出阻抗相配接的阻抗值，可以为16欧姆、8欧姆、6欧姆、4欧姆。根据音箱的结构，功率放大器的结构，可以灵活的搭配。

4.灵明度：灵明度是喇叭一个非常重要的指标。一般定义为：在扬声器系统输入端加上额定功率1W的电信号，在参考1M处产生的声压，单位用dB表示。在相同条件下，灵敏度高的扬声器听起来声音较大。灵敏度过高，会导致扬声器的动态范围下降；灵敏度过低，则推动需较多功率，要求功率放大器的功率足够。专业扬声器的灵敏度一般为98-110dB；高保真扬声器的在70-98dB 。

5.带宽（Bandwidth）：指扬声器能够有效工作的频率范围。它表示扬声器在低频到高频的范围内可以产生正常、清晰的声音输出。

6.最大声压级（Maximum Sound Pressure Level，Max SPL）：它表示扬声器在最大输出功率下可以达到的最大声音强度。它是衡量扬声器音量输出能力的参数。

7.失真（Distortion）：描述扬声器在工作过程中产生的非线性畸变或失真情况。失真会导致声音质量下降，包括谐波失真、交调失真等。

8.指向性（Directivity）：表示扬声器辐射声能的方向性和范围。不同类型的扬声器具有不同的指向性特性，如全向性、单向性、扇形指向性等。

扬声器的检测
(1)好坏的判断
将万用表置于“Rx1”挡，用红表笔接音圈(线圈)的一个接线端子，用黑表笔点击另一个接线端子，若扬声器能够发出“咔咔”的声音，说明扬声器正常;否则说明扬声器的音圈或引线开路。

（2）阻抗的估测
扬声器铁芯的背面通常有一个直接打印或贴上去的铭牌，该铭牌上一般都标有阻抗的大小，若铭牌脱落导致无法识别它的阻抗时，则需要使用万用表进行判别。将万用表置于“Rx1”挡，调零后，测量线圈的电阻，阻值为6.1Ω，将该值乘以1.3 得到的数值为7.93Q，说明被测扬声器的阻抗为8Q。

（3）极性的判断
扬声器必须要按正确的极性连接，否则会因相位失真而影响音质。大部分扬声器在背面的接线支架上通过标注“+的符号标出两根引线的正负极性，而有的扬声器并未标注，为此需要对此类扬声器的极性进行判别。采用的判别方法主要有电池检测法和万用表检测法两种

MIC

MIC接口的工作原理

MIC接口将声音转化为电信号。当声音通过麦克风时，麦克风会将其转化为微弱的电信号。这个过程称为声电转换。然后，这些电信号可以通过线路传输到录音设备或扩音器中，以便进行处理和播放。

电容式Mic是一种常见的Mic类型，其工作原理基于电容变化。它由一个薄膜电容器构成，薄膜电容器包括一个金属薄膜和一个固定的金属板。当声波通过金属薄膜时，金属薄膜会振动，从而改变了薄膜电容器的电容值。当声波振动引起电容值变化时，Mic内部的电路会将这一变化转化为电信号输出。

驻极体麦克风原理

如图为歌尔声学的B4013AM443，ECM驻极体电容传声器为将声音转换为电信号的单元，转换后的电信号幅度非常小，经过FET放大之后从正极输出可使用的声音信号。

驻极体麦克风单端式电路设计

如图，麦克风的偏置电压2.0V经过一个串联电阻2.2K接到麦克风的正极，负极直接接GND。2.2K电阻是什么作用：这个电阳给mic里面的FET提供一个直流偏置电压，让FET工作在饱和区，完成放大的功能。

由mic的手册可以知道，MIC消耗的最大电流为500uA，偏置电压为2V，为了能是FET的输出有最大的动态范围，那么Tem1处的电压最好是偏置电压的一半，即1V，根据电流为500uA，那么RL=2V/500uA=2K。所以这个电阻最好是2K左右，选取2.2K也差不多吧。

驻极体麦克风差分式电路设计

如下图，差分的方式，因为MIC+，MIC-的信号是幅度相同，相位相反的信号，所以，R1和R2必须相等，同上面所说的，考虑到静态工作点的问题，电流还是500uA，因此R1+R2-2K，所以R1=R2=1K。
有些电路中会看到R1和R2都是2K左右吧，并没有降低，原因是因为一般MIC的输出信号也只有200-300mV，动态范围要求不是很高，所以用2K影响也不大。
值得一提的是，偏置电阻大一些，增益会大些即MIC输出的音频的幅度也会大一些。这是由FET放大电路决定。

MIC电路的噪声问题
可能碰到最多的问题就是MIC电路有噪声，比如收到wifi干扰等问题，会有滋滋的声音。噪声问题可以考虑以下几个方式处理：

（1）使用差分电路的连接方式，去除共模干扰
（2）在MIC上面并联焊接10pF-100PF的滤波电容
（3）如果是接线端子引入的，接线端子可用弄成双绞线的形式
（4）串联如磁珠滤波
（5）MIC安装需要到位，并且不能形成谐振腔体

麦克风的灵敏度高好还是低

要根据你使用的条件来选择。如果声源离麦克风较远，需用灵敏度高的麦克风；如果声源离麦克风很近，则用灵敏度低的麦克风。前者能保证拾取声音信号的灵敏度，后者能有效地降低环境噪音。按照你使用的条件，离麦克风近一点是没有问题的，所以还是选用灵敏度低一点的好

1 麦克风的分类
1.1、动圈式麦克风（Dynamic Micphone）
原理：基本构造包含线圈、振膜、永久磁铁三部分。当声波进入麦克风，振膜受到声波的压力而产生振动，与振膜在一起的线圈则开始在磁场中移动，根据法拉第的楞次定律，线圈会产生感应电流。
特性：动圈式麦克风因含有磁铁和线圈，不够轻便、灵敏度较低、高低频响应表现较差；优点是声音较柔润，适合用来收录人声。
应用：KTV场所。
1.2、电容式麦克风（Condenser Micphone）
原理：根据电容两片隔板间距离的改变来产生电压变化。当声波进入麦克风，振膜产生振动，使得振动膜和基板之间的距离会随着振动而改变，于是基板间的电容会变，根据Q=C*V（电容式麦克风中电容极板的电压会维持一个定值）得到变化的电荷量Q。
特性：灵敏度高，常用于高质量的录音。
应用：消费电子、录音室。
1.3、铝带式麦克风（Ribbon Micphone）
原理：在磁铁两极间放入通常是铝制的波浪状金属箔带，金属薄膜受声音震动时，因电磁感应而产生信号。
1.4、碳精麦克风（Carbon Micphone）

2 两种常用电容式麦克风的对比
2.1、驻极体电容麦克风（Electret Condenser Micphone）
原理：驻极体麦克风使用了可保有永久电荷的驻极体物质，不需要再对电容供电。（若驻极体麦克风中内置放大电路，则需要供电）
优点：技术成熟、价格便宜
缺点：体积大，不方便SMT、引线长，造成信号衰减、生产工序多，一致性差、灵敏度不稳定
2.2、微机电麦克风（MEMS Micphone）
原理：微机电麦克风也称麦克风芯片或硅麦克风，硅麦一般都集成了前置放大器，甚至有些硅麦会集成模拟数字转换器，直接输出数字信号，成为数字麦克风。
优点：体积小，可SMT、产品稳定性好
缺点：价格较高
备注：一般情况下，我们把集成了前置放大器或者模拟数字转换器的麦克风称为拾音器（pickup）。

3 麦克风的性能参数
3.1、指向性（Directivity）
指向性描述麦克风对于不同角度声音的灵敏度，规格上常用如下的polar pattern表示，在每个示意图中，虚线圆形的上方代表麦克风前方，下方代表麦克风的后方。

3.2、灵敏度级（Sensitivity）
声压：指声波通过某种媒质时，由振动产生的压强改变量。单位为Pa、μbar。1μbar=0.1Pa。
参考声压：P(ref) = 20μPa。

声压级（SPL）：

例：1Pa声压的声压级为

灵敏度：指麦克风的开路电压与作用在其膜片上的声压之比。单位为mv/pa、mv/ubar。1mv/ubar = 10mv/pa。

麦克风灵敏度的定义是馈给1pa(94dB)的声压时，麦克风输出端的电压（dBV）。
所以-30dBV/Pa的麦克风的灵敏度比-42dBV/Pa的麦克要高很多。

MIC灵敏度是指在单位声压强度下所产生的信号电强度，用DBV表示。
单位声压绝对值为1PA，相对值为94DB（也有用加权的，94DBA），其中基准压强为2X10－5PA。
现在大多产家是按这个来定义的，所以－40DB的比－30DB的灵敏度高。
MIC灵敏度是固定指标，是指在标准偏置下测出的。产商可改变工艺或者材料来提高。用户在使用中不可降低，如果用户偏置不正确，会产生失真和带宽挤压，表现为灵敏度降低。
啸叫问题，应该不是MIC灵敏度问题。因为在HF　MODE是半双工模式，侧间会被消除。如果在TEST　MODE仍是全双工所以会正反馈。
消除啸叫常有，降低声音强度（SPEAKER输出)，结构调整(MIC和SPEAKER)，加MUTE，密封，降噪等方法消除。

参考灵敏度：Mr = 1V/Pa

灵敏度级：
例：1V/Pa灵敏度的灵敏度级为

3.3、信噪比（SNR）
信号与噪声的比例。

3.4、总谐波失真（THD）
总谐波失真是指输出信号比输入信号多出的谐波成分。谐波失真是系统不是完全线性造成的。所有附加谐波电平之和称为总谐波失真。总谐波失真与频率有关，一般来说，1khz频率处的总谐波失真最小，因此不少产品均以该频率的失真作为它的指标。

公式1：
上式中，符号G表示谐波分量的有效值，它将按要求在表示电流时被I代替，在表示电压时被U代替，H的值在与限制有关的每一个标准中给出。按照上述定义，THD不包含简谐波，并且，有一固定的谐波上限。

公式2：
上式中，Q为总有效值，Q1为基波有效值，可代表电压或电流，按照上述定义，THD包含间谐波和直流分量。
3.5、等效输入噪声（EIN）
无外声场时，仅由传声器固有噪声引起的输出电压，可以看作能产生相同有效值输出电压的外部声压级。
3.6、电源抑制比（PSRR）
电源抑制比(PSRR)是输入电源变化量（以伏为单位）与转换器输出变化量（以伏为单位）的比值，常用分贝表示。
3.7、输出阻抗（Zout）

LINE_IN

声卡接口介绍：

Line In：用来输入未经放大芯片放大的模拟音频信号。
Mic：用来连接麦克风。
Line Out：用来输出未经放大芯片放大的模拟音频信号。
Speaket Out(现在通常和Line Out合为一个插孔)：用来输出经放大芯片放大的模拟音频信号

Line In/Out传递的是只经过A/D或D/A芯片转换后的信号，还原度较高；而Speaker Out输出的是经放大芯片(例如TDA1517P)放大过的信号，声音会产生一定失真(但很小，人耳几乎不能察觉)。

如果音箱上有放大电路，则连接到Line Out，如果没有放大电路则连接到Speaker Out。无源音箱如果连接到Line Out上可能出现声音很小或是声音不正常的现象。

音频线line in接口，用于接驳主板背板的声卡口的声音输出，连线后可用于显示器自带的喇叭播放。

LINEOUT引脚和SPKOUT引脚的区别：

这两个输出端子主要是输出功率上的不同，在电子学上就是输出电平不同；线性输出和扬声器输出；

简单的说，Speaker-out就是在Line-out的后面再加上一个功放电路组成，以满足耳机或没有功放电路音箱对功率的要求，因为Line-out音频信号没有经过放大电路，因此不足以推动耳机或无源音箱发出声音，但它的信号没有经过声卡上所带简单功放电路的污染，因此音质要纯净一些，建议使用优质带功放音箱的朋友使用这个端子。

lineout是不带功放，音质较好，但是推动功率小，使用于有源音箱
spkout是带功放，音质不好（有大量的电噪声），声卡自带简易功放电路（音质差），输出功率大使用于无源音箱（好像很少的）

LINEIN引脚和MICIN引脚的区别：

1、Line in端口：该端口主要用于连接电吉他、电子琴、合成器等外界设备的音频信号输出的录音，由于这些设备本身输出功率就比较大，因此需要连接到Line in端口录音，当然使用它们录音从某种程度上也可以被称为外部设备的“内录”。一般声卡越好，Line in里的噪音就会越低，录制效果也会比较好。

2、Mic in端口：这要是连接麦克风录音使用的。但是这个端口和Line in的区别在于它有前置放大器，换言之麦克风本身输出功率小，因此必须要有一个外部的放大设备来放大音频信号。这个端口就是起到这个作用。

3、特别要强调的一点是：外部的电吉他、合成器这类音频设备万不可直接连接到Mic in上录音，因为这种连接轻则录音时信号会严重削顶失真，重则损毁声卡这类硬件设备。

有源音箱和无源音箱的区别：

两者功率有区别：有源音箱内置功放，所以小功率信号就可以播放；无源音箱没有内置功放，需要外接功放才能工作；

两者音质有区别：无源音响因为没有内置功放所以干扰比较少音质比较好；

AUX

AUX接口定义

AUX接口，全称Auxiliary Input，翻译为辅助输入接口，是一种用于接收外部音频信号的接口。它采用模拟信号输入方式，一般使用3.5mm的立体声接头。在音箱、音响、汽车音响、电视机等电子设备上都可以见到它的身影。

AUX接口功能

AUX接口的主要功能是接收并播放外部设备的音频信号。通过AUX接口，我们可以将手机、电脑、MP3、CD机等设备连接到音箱上，播放设备中的音乐或音频。这样，我们就可以利用音箱的音质优势，获得更好的听觉体验；

AUX接口使用方法

使用AUX接口非常简单。

1、在音箱的AUX接口和音频源设备的音频输出接口之间，插入一根带有3.5mm立体声接头的线缆。

2、将音箱的工作模式切换到AUX或Line In。

3、就可以用音箱播放音频源设备中的音乐或音频了。

如下图，另一端接手机即可实现通过车载音响播放手机的音频！

声道

声道(Sound Channel) 是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

单声道	单声道（Single channel）是声音复制形式，是指只有单个声道的音频文件称之为单声道
立体声	2.0声道、2.1声道都是立体声，立体声能够听到声音的方位和变化，相比单声道系统，音质有很大改善、临场感也大大加强，在重现声源的定位方面有很大改进。 2.0声道包括左声道和右声道，为两个分频，它的音域比较好，声音的穿透效果较好； 2.1是两个音箱+一个低音炮，高音主要集中于两个音箱，而低音集中在低音炮中。使用场景，2.0声道在听歌曲的时候表现较为出色，2.1声道的音箱在游戏和视频上表现的极为出色。像我们平常使用的天猫精灵音响，电视、手机都是使用立体声双声道双声道（Dual Channel）是基于人类听觉原理，通过利用两个独立的声道进行录音和重播。这样，我们听到的声音才能保持舞台平面的声音，才能定位某乐器、歌手在舞台上的位置。。双声道通过仿照人耳左右分置的结构，在录音时将2个或两组麦克风左右分置，并分别连接录音于2个独立的音轨上，再经扩大机透过左右分置的喇叭产生两个声道的声音，以模拟原来的音场，使听者有身历其境的感觉。
环绕声	常见的环绕声包括5.1、7.1声道。对应这两种配置，电视节目，电影和音乐通常被混合成 6 个或者 8 个通道：5.1 音频的左、中、右、左环绕、右环绕和低音炮，7.1音频的左、中、右、侧左、侧右、后左、后右和低音炮。
全景声	杜比全景声（Dolby Atmos）是杜比实验室研发的3D环绕声技术，于2012年4月24日发布。它突破了传统意义上5.1声道、7.1声道的概念，能够结合影片内容，呈现出动态的声音效果；更真实的营造出由远及近的音效；配合顶棚加设音箱，实现声场包围，展现更多声音细节，提升观众的观影感受。适用于影院的杜比全景声最多有64个独立扬声器呈现内容，且多达 128 个音轨。
混音	声音在空间中传播时，会被物体反射、折射、吸收等影响，因而出现了反响声和混响声。混音是将多种声音组合成一个或多个声道的过程。在此过程中，源的音量水平、频率内容、动态和全景位置被操纵或增强。进行这种实用的、美学的或其他创造性的处理是为了制作出吸引听众的最终版本。混音将来自不同音轨音频合并到一个音频文件中，并进行调整以获得更好的听觉体验的过程。混音不仅仅包括简单的音量大小调整，还涉及音频处理、均衡、混响、压缩等技术，以及添加各种音效。如左右声道就是通过对反响声和混响声的处理，实现声音在左右两个声道的分离和定位。
录音格式	采样率：48000Hz 声道：单声道位深度：24位格式：wav
为什么录音时最好选择要单声道	因为单声道更好处理。在混音时常常使用混响器对音轨进行处理，单声道干音不能提供任何的空间信息，即使只加一点点混响量，也可以很好的达到想要的效果
为什么是wav而不是mp3？	mp3格式是一种音频压缩技术，也就是说，这种格式对音频是有损。所以导出的干音格式应当为wav，无损格式
正确的录音方式	嘴巴距离麦克风大约15-20厘米，两个拳头的距离。嘴巴不要贴着麦克风，也不能离得太近，会导致喷麦

音频文件

常见音频文件格式介绍

MP3	MP3是一种音频压缩技术，其全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III），简称为MP3. 用＊.mp3格式来储存，一般只有＊.wav文件的1/10，而音质要次于CD格式或WAV格式的声音文件。由于其文件尺寸小，音质好。保持低音频部分不失真，但是牺牲了声音文件中12KHz到16KHz高音频这部分
AAC	AAC文件全称Advanced Audio Coding，被称为高级音频编码。是杜比实验室为音乐提供的技术，最大能容纳48通道的音轨，采样率达96 KHz。AAC通常压缩比为18:1，也有资料说为20:1，远远超过了AC-3、MP3等较老的音频压缩算法
WMA	全称Windows Media Audio，它是微软公司推出。相对来说要比MP3体积更小，音质要强于MP3格式。WMA的压缩率一般都可以达到1：18左右。
OGG	Ogg全称应该是OGG Vobis(ogg Vorbis) 是一种新的音频压缩格式。OGG文件可以在未来的任何播放器上播放。ogg格式完全开源，完全免费，和mp3不相上下的新格式
MPC	MPC全称MusePack，德国人Andree Buschmann开发的一种完全免费的高品质音频格式。在高码率下，MPC的高频要比MP3细腻不少，可以在节省大量空间的前提下获得最佳音质的音乐欣赏，是目前最适合用于音乐欣赏的有损编码。
WAV	简称WaveForm，WAV是其缩写，也称为波形文件，可直接存储声音波形。是44.1K的采样频率，速率88K/秒，16位量化位数。文件占用的磁空间非常的大，但是，WAV文件还原的波形曲线十分逼真，音质也非常好。
FLAC	FLAC全称Free Lossless Audio Codec，中文名为无损音频压缩编码，该文件占用空间较大。用较为高端的耳机、声卡监听（播放）此音频格式文件。体积大点，但是兼容性好，编码速度快，播放器支持更广。
APE	APE为无损压缩格式，较FLAC而言，他体积较小。编码速度偏慢
WV	WavPack是由David Bryant开发的一个自由、开放源代码的无损音频压缩格式，其文件的后缀名为.wv。WavPack允许用户压缩、恢复8、16、24、32位整型以及32位浮点表示的WAV格式音频文件，另外它还支持多声道数据流以及非常高的采样率。
CD	标准CD格式也就是44.1K的采样频率，速率88K/秒，16位量化位数，因为CD音轨可以说是近似无损的，因此它的声音基本上是高度还原原声的
MIDI	MIDI是一种编曲类的音频格式文件，全称为Musical Instrument Digital Interface，即乐器数字接口。是编曲界最广泛的音乐标准格式，可称为“计算机能理解的乐谱”。它用音符的数字控制信号来记录音乐，一首完整的MIDI音乐只有几KB或者几十KB大小，而能包含数十条音乐轨道。我们听MIDI音乐的时候，它都是音乐（乐谱）的声音，而没有人声。它主要的作用是辅助音乐创作、乐曲演奏等。
MOV	苹果系统中常用的音频、视频封装格式文件，是QuickTime封装格式。目前，此格式文件也在Windows中也较为常用，多数手机和系统，可以直接播放该格式文件

音频文件比较与总结
音乐爱好者常见的音频格式有：flac、ape、wav、mp3、aac、ogg、wma

有损压缩：MP3、AAC、WMA、OGG、MPC
无损压缩：WAV、FLAC、APE、WV
其它：CD,MIDI,MOV

1.压缩比比较：
aac>ogg>mp3(wma)>ape>flac>wav（同一音源条件下）
mp3和wma以192kbps为分界线，192kbps以上mp3好，192kbps以下wma好。

2.音质比较：
wav=flac=ape>aac>ogg>mp3>wma

3.硬件支持比较：
MP3播放器：mp3>wma>wav>flac>ape>aac>ogg
手机：mp3>wma>aac>wav>flac>ogg>ape

4.综合性能（就是综合音质体积编码率）：aac>ogg>flac ape>mp3>wav>wma

音频信号DAC

音频信号ADC

音频编码

音频解码

通信接口IIS

功放

参考文档：音频功放的种类和基本原理-CSDN博客

音频入门实验

音频处理原理介绍

声音变速：时域变，空间不变

是在同样的采样率环境下，对采样数据进行拉伸或压缩；
从算法的角度上来说的话，可以认为是插值或抽值；

速度变得更快：很明显，就是在同样的采样率下，抽掉一些样本。

降速：则是插入一些样本；
比如：例如原来采样到的数据是1234，加速的时候，抽离样本1和4剩下23；降速的时候，增加样本11223344

音量变化：音量则反之，时域不变，空间变；可以简单粗暴地理解，就是线性拉伸