[转载]常见的音频文件介绍

最新推荐文章于 2023-03-06 10:02:05 发布

lspbeyond

最新推荐文章于 2023-03-06 10:02:05 发布

阅读量4.8k

点赞数

分类专栏：音视频编码技术文章标签：音乐 google windows internet 算法 microsoft

本文链接：https://blog.csdn.net/sunshine1314/article/details/485591

版权

音视频编码技术专栏收录该内容

8 篇文章 0 订阅

订阅专栏

转自豪杰技术 http://www.herosoft.com

常见的音频文件介绍

我们都知道，声音是由振动而产生的一种波，传统的声音处理方法都是模拟方法，其一般过程是通过声音录入设备把声音的振动转化为电流，通过一定的模拟电路进行放大和处理，再经磁设备记录到磁带上或送到音箱。传统的模拟方法存在消除噪声难、易失真、不易修改等缺点。数字化方法能有效的克服模拟方法的缺陷，声卡正是用数字化方法来处理声音，包括数字化录音、编辑、播放等方式。
获取数字化声音的过程实际上就是声音的模数转换（D/A）过程，采样频率（Sampling Rate）和采样大小（Sampling Size）是数字化录音时的两个基本指标。采样频率是单位时间内的采样次数。采样频率越大，采样点之间的间隔越小，数字化得到的声音就越逼真，但相应的数据量就越大，处理起来就越困难。根据硬件的支持不同，采样频率可以从8KHz（8000次/s）到96KHz。44.1KHz就是通常所说的CD音质的采样频率。
采样大小即是记录每次采样值大小的数值的位数，决定采样的动态变化范围。采样大小通常有8-Bit、16-Bit、24-Bit、32Bit等。按8-Bit进行的采样能描述2的8次方，即256种变化，按16-Bit进行采样则能描述2的16次方，即65536种变化。
声道一般有单声道（MONO）、立体声（Stereo）。数字化声音的播放过程就是数字化声音的数模转换。数字化声音的采集（AD）和播放（DA）是由音频卡的数字信号处理芯片DSP来完成的。
电脑上常见的音频格式通常分为midi文件和声音文件两大类。其中，Midi文件是一种音乐演奏指令的序列，就像乐谱一样，可以利用声音输出设备或与电脑相连的电子乐器进行演奏，由于不包含具体声音数据，所以文件较小。而声音文件则是通过录音设备录制的原始声音，直接记录了真是声音的二进制采样数据，通常文件较电脑音乐在现在市面上，可见的主要格式由以下10种：
1、 MIDI（.MID）：
MIDI是乐器数字接口的英文缩写，是数字音乐/电子合成乐器国际标准。MIDI目的是解决各种电子乐器间存在的兼容性问题。MIDI规范不仅定义了电脑音乐程序，音乐合成器及其电子音乐设备交换音乐信号的方式，而且还规定了不同厂家的电子乐器与电脑连接的电缆和硬件及设备见数据传输的协议，可用于为不同乐器创建数字声音，能很容易的模拟钢琴，小提琴等传统乐器的声音。MIDI本身并不能发出声音，它是一个协议，只包含用于产生特定声音的指令，而这些指令则包括调用何种MIDI设备的声音，声音的强弱及持续的时间等。电脑把这些指令交由声卡去合成相应的声音。最初，因为不同MIDI设备的乐器音色排列方法不一，所以会造成同一MIDI文件在不同的设备会出现完全不同的放声效果。为避免出现这种混乱情况，GM（GENERAL MIDI）标准被提出并得到了WINDOW操作系统的支持，得到了相当广泛得应用。它规定了前128中常用乐器的音色编排方式，例如1号是钢琴，66号是萨克斯管等等，它实际上是对midi规范的补充。 ROLAND公司提出的GB标准兼容GM的基础上，对其进行了发展，增强了音乐的表现力--他提供比gm标准数量更多的打击乐器组合更多的特殊音响。gs标准具有广泛的软硬件适应性，包括声卡，音乐爱好者的娱乐乐器啊到专业音乐器材等。后来，yamaha公司又提出了基于gm标准的xg标准。相对于保存真实采样数据的声音文件，MIDI文件显得更加紧凑，其文件的大小要比WAV文件小的多--一分钟的WAV文件约要占用10MB的硬盘空间，而已分钟的MIDI却只有区区的3.4KB。现在，MIDI已经成为电脑音乐的代名词。电脑播放MIDI文件时，有两种方法合成声音；FM合成和波表合成。FM合成是通过多个频率的声音混合来模拟乐器的声音，波表合成是将乐器的声音样本存储在声卡波形表中，播放时从波形表中取出来，产生声音。采用波表合成技术，可以产生更逼真的声音。 MIDI文件有几个变通的格式，其中CMF文件是随声卡一起使用的音乐文件，于MIDI文件非常相似，只是文件头略有差别；另一种MIDI文件是WINDOWS使用的RIFF文件的一种子格式，称为RMID，扩展名为RMI。。
2、 WAVE（.WAV）：
　　由MICROSOFT公司开发的一种WAV声音文件格式，是如今电脑上最为常见的声音文件，符合RIFF文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台机器应用程序所广泛支持，WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他压缩算法，支持多种音频位数，采样频率和声道，但其缺点是文件体积较大，所以不适合长时间纪录。。
3、.MP1/.MP2/.MP3：
　　MPWG代表的是MPEG活动影音压缩标准， MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。MPEG频文件根据压缩质量和编码复杂程度的不同可分为三层（MPEG AUDIO LAYER 1/2/3分别与MP1。MP2和MP3这三种声音文件相对应MPEG音频编码具有很高的压缩率，MP1和MP2 的压缩率分别为4：1和6：1-8：1，而MP3的压缩率则高达10：1-12：1，也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。因此，目前INTERNET上的音乐格式以MP3最为常见。 MP3为降低声音失真采取了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析然，然后用过滤器率掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然他是一种有损压缩，但是它的最大优势是一极小的声音失真换来了较高的压缩比。
4、.MP4：
　　MP3问世不久，就凭这较高的压缩比12：1和较好的音质创造了一个全新的音乐领域，然而MP[3的开放性却最终不可避免的导致了版权之争，在这样的背景之下，文件更小，音质更佳，同时还能有效保护版权的MP4就应运而生了。 MP3和MP4之间其实并没有必然的联系，首先MP3是一种音频压缩的国际技术标准，儿MP4确实一个商标的名称，其次，他采用的音频压缩技术也迥然不同，MP4采用的是美国电话电报公司所研发的，以“知觉编码”为关键技术的a2b音乐压缩技术http://www.a2bmusic.com课讲压缩比成功的提高到15：1，最大可达到20；1而不影响音乐的实际听感，同时mp4在加密和授权方面也做了特别设计，它有如下特点：
? 每首mp4乐曲就是一个扩展名为.exe的可执行文件。在windows里直接双击就可以运行播放十分方便。mp4这个有点同时又是她的先天缺陷--容易感染电脑病毒！
? 更小的体积！更好的音质？想对先进的a2b音频压缩技术的采用，使mp4文件的大小仅为mp3的四分之三左右，从这个角度来看np4更适合在inter上传播，而且据说音质也更胜一筹，但我怎么也没听出他比mp3的音质更为优越。
? 独特的数字水印。mp4月去采用了名为“SOLANA ”技术的数字水印。可方便的追踪和发现盗版发行行为。而且，任何针对mp4的非法解压行为都可能导致mp4原文件的损毁。
? 支持版权保护。mp4乐曲还内置了包括与作品版权持有者相关的文字、图像等版权说明，即可说明版权。又表示了对作者和演唱者的尊重。
? 比较完善的功能。np4可独立调节左右声道音量控制，内置波形/分频动态音频显示和音乐管理器可支持多种彩色图像，网站连接及无限制的滚动显示文本。
5、VQF
　　VQF即TWINVQ是有NTT与YAMAHA共同开发的一种音频压缩技术。VQF的音频压缩率比标准的MPEG音频压缩率高出近一倍，可以达到18：1左右，甚至更好。也就是说，把一首四分钟的歌曲压成MP3大约需要4MB左右的硬盘空间，而同一首歌曲如果使用VQF音频压缩技术的话哪只需要2MB左右的硬盘空间。因此在音频压缩率方面，MP3和RA都不是VQF的对手。如此之高的压缩率是否会影响音质呢？实际聆听的结果告诉我们--不会。当VQF以44KHZ，96KBIT/S的频率压缩时，她的音质几乎等于44KHAZ，256KBIT/S的MP3。经SOUNDVQ压缩后的音频文件在进行回放效果试听时，几乎没有人能听出他与原音频文件的差异。
6、AIF/.AIFF：
　　.AIFF是音频交换文件格式的英文缩写。是APPLE公司开发的一种音文件格式，被MACINTOSH平台及其应用程序所支持，NETSCAPE NAVIGATOR浏览器重的LIVEAUDIO也支持AIFF格式，SGI及其他专业音频软件包也同样支持AIFF格式。AIFF支持ACE2、ACE8、MAC3和MAC6压缩。支持16位44.1KHZ立体声。
7、AU：
AUDIO文件是SUN胃系统公司推出的一种经过压缩的数字声音格式。AU文件原先是UNIX操作系统下的数字声音文件。由于早期INTERNET上的WEB服务器主要是基于UNIX的，所以，AU格式的文件在如今的INTERNET中也是常用的声音文件格式，NETSCAPE NAVIGATOR浏览器中的LIVEAUDIO也支持AUDIO格式的声音文件。
8、VOC
　　VOICE文件是新加坡著名的多媒体公司CREATIVE LABS开发的声音文件格式，多用于保存CREATIVE SOUND BLASTER系列声卡所采集的声音数据，被WINDOWS平台和DOS平台所支持，支持CCITTA LAW和CCITT u LAW等压缩算法。再DOS程序和游戏中常会遇到这种文件，他是随声卡一起产生的数字声音文件，他与WAV文件的结构相似，可以通过一些工具软件方便的互相转换。
9、RA/.RM/.RAM
　　REALAUDIO文件是REAL NETWORKS公司开发的一种新型音频流文件格式，它包含在REAL NETWORK公司所定制的音频、视频压缩规范--REALMEDIA中，主要用于再低速率的广域网上实时传输音频信息。网络连接速率不同，客户端所获得的声音质量也不尽相同：对于14.4KBPS的网络连接，可获得调幅（AM）质量的音质；对于28.8KBPS的连接，可以达到广播级的声音质量，如果使用ISDN或ADSL等更快的线路连接，则可获得CD音质的声音。
10、MOD/.S3M/.XM/.MTM/.FAR/.KAR/.IT
模版格式同时具有MIDI与数字音频的共同特性--既包括如何演奏乐曲的指令，有保存了数字声音信号的采样数据。因此，其声音回放质量对音频硬件的依赖性较小，也就是说在不同的机器上可以获得基本相似的声音回放质量。模块文件根据不同的编码有MOD、S3M、XM、MTM、FAR、KAR、IT等多种不同格式。电脑上这么多种格式的音乐文件其实都是通过我们电脑里的声卡合成输出为我们的耳朵最终所听到的音乐。声卡最为常见的合成手段有两种：FM合成和波表合成。其中，FM合成方式多鉴于早期的ISA声卡，是运用是声音振荡的原理对MIDI进行合成处理，效果是在很差劲。想要在电脑上听到真正悦耳动听的音乐，就去研究波表合成吧
11、IMA-ADPCM（ADPCM：Adaptive Differential Pulse Code Modulation），是一种针对16比特（或者更高）声音波形数据的一种有损压缩算法，它将声音流中每次采样的16比特（bit）数据以4比特存储，所以压缩比1：4。而压缩/解压缩算法非常的简单，所以是一种低空间消耗，高质量声音获得的好途径。著名的WestWood在它的许多游戏里都使用了这个技术，沙丘II、命令与征服、红色警戒等等，保存声音的数据文件后缀名为.AUD的大多用IMA-ADPCM压缩（不过WestWood的游戏数据文件大多经过打包，这些小文件统统放进了一个.MIX文件包中，关于解开.MIX文件包，参见：http://www.geocities.com/SiliconValley/8682）。
　　ADPCM主要是针对连续的波形数据的，保存的是波形的变化情况，以达到描述整个波形的目的。本文并不想详细介绍ADPCM算法原理，那些是数学知识，有高等数学基础的朋友可以自己研究