浅谈声音文件

最新推荐文章于 2024-10-21 19:18:44 发布

挨踢大侠

最新推荐文章于 2024-10-21 19:18:44 发布

阅读量3.3k

点赞数 2

分类专栏：电脑知识文章标签：声音 mp3格式采样率声音文件格式

电脑知识专栏收录该内容

5 篇文章

订阅专栏

【前言】

前段时间，一个同事遇到了一个很纠结的客户。说纠结是因为客户要求她提供大小在100MB-200MB以上的歌曲文件。而同事对音频格式又不太了解，于是就开始了无休止的关于FLAC、WAV、音频大小的纠缠。最终，同事也没有跟客户解释清楚到底是怎么回事儿。

在之后，又发生了一些其他事情，让我感觉到音乐这个行业里面，身边有太多从业者对音乐的了解极为匮乏，甚至缺乏一些最基本的音乐相关知识，更甚者是这些知识根本不被重视，从业者连去了解的想法都没有，这让我很感到很悲哀。好像音乐只有一种商品属性，而而我们的从业者只是需要整理下货架，码好各种商品，拿着用户购买记录的大数据就给用户推荐商品了，而根本不需要关心用户为什么喜欢这个品牌，这些商品都有什么特性，用冷冰冰的数据为用户提供着各种服务。

所以，我认为有必要写一些东西了，我不奢望从业者能成为真正爱音乐的人，只希望哪怕你依然只当“她”是商品，也首先能知道自己在卖的东西，到底是什么。

PS：第一讲内容是媒体文件，由于相关内容涉及到很多技术问题，所以好像会有些枯燥，但如果你静心的看下去，会发现其实都是很容易理解的内容，这些基础知识却能很好的提升自己的能力。也请期待我马上会推出的关于唱片、音乐风格等更具趣味性的内容。

【正文】

比特率、采样率、无损、MP3、FLAC、APE、320kb、192kb、128 kb、44.1khz、CBR、VBR。这堆各种各样的名称是不是让你既熟悉又陌生？

比特率越高，音质就越好。而无损音乐，是最高音质，这是真的吗？那就让我们从声音的采集开始说起。

【音频的组成】

当前，我们所说的音频，都是数字音频。数字音频由采样频率、采样精度、声音通道数三个部分组成。

采样频率：既采样率，指记录声音时每秒的采样个数，它用赫兹(Hz)来表示。

采样精度：指记录声音的动态范围，它以位(Bit)为单位。

声音通道：既声道数（1-8个）。

&lt;img src="https://pic1.zhimg.com/50/7745e85fed03c093addc424d5b437e9a_hd.jpg" data-rawwidth="587" data-rawheight="217" class="origin_image zh-lightbox-thumb" width="587" data-original="https://pic1.zhimg.com/7745e85fed03c093addc424d5b437e9a_r.jpg"&gt;

通俗点说，我们可以把声波看成是一条曲线，我们知道，曲线是由点组成的，采样率就是每秒长度（上图横轴）中点的个数。而采样精度就是动态范围（上图竖轴）中点的个数。这两个维度的定位越细，声音的真实还原度就越高，音质也就会更好，当然，音频文件也就会越大。上面那个同事遇到的客户所说的，就是SONY公司最新发布的音频格式Hi-Res Audio，是192kHz / 24bit，6通道录制的音频文件，无损格式的大小当然就会在200多兆了。

采样率根据使用类型不同大概有以下几种（k既千位符号，1khz=1000hz）：

8khz：电话等使用，对于记录人声已经足够使用。

22.05khz：广播使用频率。

44.1kb：音频CD。

48khz：DVD、数字电视中使用。

96khz-192khz：DVD-Audio、蓝光高清等使用。

采样精度常用范围为8bit-32bit，而CD中一般都使用16bit。

说到这里，朋友们开始迷惑了，确定音质好坏的不是比特率啊，那为什么大家都说320kb的比128kb的音质好呢？

【音频的压缩】

好吧，其实比特率这个东西应该说是另一个维度的东西，他是一种音频文件的压缩。

目前我们常用的音频格式，大部分都是基于音频CD（采样率44.1khz、采样精度16bit，2通道）的原始文件“WAV”文件而来的。原始收录的声音数据保存在一个数组里面，这个数组就是PCM格式，而WAV格式，则是微软公司开发的一种编码格式，它的作用是将PCM格式的数据通过编码播放出来。

由于WAV内的数据基本上完整的还原了PCM数据，而其他的无损、MP3、AAC等另外一些编码格式基本也都是基于WAV文件再压缩而成。所以，我们可以简单的认为，WAV是原始音频格式，其他音频格式是压缩格式。

说到压缩，就离不开存储和传输，压缩的目的就是为了更好的存储和传输，所以在说压缩之前，需要我们对计算机的基本单位有一些了解。

我们都知道，计算机是二进制数制，计算机存储的文件都是由0和1两个数字组成。所以，计算机的传输就以每一个数字为单位，每一个数字称为1“位(bit)”，比如说，一段音频，他的基础数据是“0,1,1,1,0,1,1,0”，而传输的时候，就是将这些数字一个个的传输过去。上面说的采样精度就是这个单位。

而计算机的存储单位是“字节(Byte)”，在计算机中，1个字节由8个位组成，也就是说8b(bit)=1B(Byte)。在计算机语言中，数据存储是以10进制表示，数据传输是以2进制表示，所以1KB=1024B=1024×8b。这也是造成我们看到的硬盘容量跟实际容量不符的部分原因。

返回来再说音频压缩，音频的比特率，实际上就是压缩比例。所以比特率实际上只定义文件的大小，但是由于在正常状态下，文件越大，其丢失的数据就越少，所以其音质也就相对更高一些。但比特率本身并不对文件的质量有直接影响，例如我们把128kb的文件作为源文件，即使转换成320kb的文件，其音质依然不会比128kb好。

那么比特率中的数字和字母到底是什么意思呢？首先看128k的全称“128kbps”，我们试着分解一下：128是数字，k是千位符，b是单位，s是秒，ps其实就是“/s”。这样来看，128kbps就是128kb/s。也就是每秒128kb。

请注意，这里的b是小写的b，也就是位。知道了这个，我们就能算出来128kb的文件大概占用多少的存储空间：128*1000=128000b/s÷8=16000B/s÷1024=15.625KB/s*60=937.5KB/分钟÷1024=0.9155MB/分钟。所以，128kb的音频文件，大概每分钟长度的大小都在0.92M或者916kb左右，也就是大家常说的128kb的mp3大小约1M的原因，大家可以在本地测试验证。

在说有损和无损之前，还有两个词跟大家解释一下，就是我们在压缩MP3的时候会看到CBR、VBR两种方式。而CBR就是Constants Bit Rate，恒定比特率；VBR就是Variable Bit Rate，动态比特率。理论上说，VBR的方式是根据音频源文件中声音的具体频率，自动修正一些比特率，以达到在同样比特率效果中，达到更小的文件。

我们再来说有损和无损。简单的来说，有损压缩就是通过删除一些已有数据中不太重要的数据来达到压缩目的；无损压缩就是通过优化排列方式来达到压缩目的。由于这些压缩方式涉及到更深的技术知识，我们就不再多说，大概可以这样去看：有损压缩就像我们在一篇文章中删除一些不重要的助词，达到目的，解压缩后，已删除的内容无法恢复；而无损则是通过排版方式达到的，解压缩之后，还能获得完整的WAV数据，就像是我们常用的winzip和WinRAR那样。

在无损格式中，目前比较常用的有APE(Monkey's audio)、FLAC(Free LosslessAudio Codec)两种。前者拥有更小的比特率，后者则更容易传播，其区别就是，FLAC可以在传播中断后，已传播的数据就可以直接使用。比如我们下载一首APE格式的音乐，必须等全部数据下载完成后，才能播放，而FLAC则不同，你只下载了1/3，就能先播放这1/3的内容。

看到这里，我想你已经想到了，WAV文件也是一种编码格式，那他是不是也是有一定的比特率呢？没错，标准WAV文件的比特率是1411kb、而无损压缩则根据源文件的内容不同，大概是900-1000左右。大家可以自己去计算一下他们的标准大小。

【市场上不同编码模式的区别】

我们经常看到有些说法，64kb的aac(苹果公司使用的音频格式)音质与128kb的MP3音质差不多，但只是MP3一半的大小。包括微软的wma大小也相对较小，但是为什么当前主流音频格式还是mp3呢？

关于这个问题，目前我还没有专门研究过，但综合网络上的一些情况，大概有以下几种吧：

1. MP3是最早一种在互联网上流行的音频编码标准，人们的行为习惯以及全网支持解码使它更具优势。

2. 不同的编码方式在不同的码率优势不同，在192kb-224kb这个范围内，MP3格式的音质还是有绝对优势的。

3. 从Napster开始的MP3免费下载网站，到各大随身听播放器的支持，使得MP3被广泛传播，后续的AAC格式没有遇上如此大规模的传播机遇，从而导致十多年都没有主流化。

PS：AAC其实与MP3来源于同一个标准MPEG，AAC在诞生之初就是作为MP3的继任者出现的。

另外，来源于网友测试的结果可作为参考，如下：

OGG的优势范围：96K以上（OGG）

AAC的优势范围：AAC LC应高于（包含）256K AAC HE 48K-96K

Mp3的优势范围：192K（包含）以上

WMA的优势范围：128K（包含）以下

个人对有损格式的感觉：

任何有损格式，码率当然都是越高越好。码率高，不仅波形失真小，而且频率的衰减也小。
如果说一定要按照频谱衰竭程度，把有损音频格式排个名的话：（Mp3指CBR，AAC指LC）

同等码率（CBR）下

大于320K OGG、AAC都基本快接近无损
320K OGG=AAC>Mp3>WMA
256K OGG>AAC>Mp3>WMA
224K OGG>Mp3>AAC>WMA
192K OGG>Mp3>WMA>AAC
128K OGG>WMA>AAC>Mp3
96K AAC(HE)>OGG>WMA>Mp3（OGG此时失真严重，所以听觉上可能AAC(HE)>WMA>OGG>Mp3）
64K AAC(HE)>OGG>WMA>Mp3（OGG此时失真严重，所以听觉上可能AAC(HE)>WMA>OGG>Mp3）

序号	格式	规格	实际码率	实际大小	最高频率	失真	失真程度
1	Wave	Wave	1411	46.1	22+	无	无
2	APE	Fast	960	31.3	22+	无	无
3	APE	Insane	936	30.6	22+	无	无
4	FLAC	V0	1030	33.5	22+	无	无
5	FLAC	V8	969	31.6	22+	无	无
6	WavPack	Normal	970	31.6	22+	无	无
7	WavPack	Ultra	953	31.1	22+	无	无
8	Mp3	CBR	320	10.4	21.5	是	小
9			256	8.36	20.9	是	中
10			224	7.31	19.6	是	中
11			192	6.27	19.6	是	中
12			128	4.18	15.5	是	大
13			96	3.13	12.2	是	大
14			64	2.08	8.8	是	大
15		V0	273	8.93	19.2	是	小
16		V2	221	7.23	18.5	是	大
17		V4	159	5.22	16.9	是	中
18		V6	130	4.26	15.5	是	大
19		V8	100	3.29	12.8	是	极大
20	Mp3-pro	CBR	96	3.13	22+	是	中
21	Mp3-pro	CBR	64	2.09	18.1	是	大
22	WMA	CBR	320	10.4	20.2	是	小
23			256	8.39	20.3	是	小
24			224	无数据	无数据	无数据	无数据
25			192	6.3	18.7	是	中
26			128	4.2	16.1	是	大
27			96	3.16	13.6	是	大
28			64	2.11	11.7	是	大
29	AAC	LC448	443	14.5	22+	是	小
30		LC320	316	10.4	22+	是	小
31		LC256	253	8.35	21.4	是	小
32		LC224	221	7.31	18.4	是	小
33		LC192	190	6.27	18.2	是	小
34		LC128	126	4.19	15.9	是	中
35		HC96	94	3.13	20.4	是	中
36		HC64	63	2.1	20.4	是	中
37	OGG	Q10	499	16.3	22+	是	小
38		Q9	334	10.9	22+	是	小
39		Q8	257	8.41	22+	是	小
40		Q7	225	7.38	22+	是	小
41		Q6	194	6.35	21.6	是	小
42		Q4	133	4.35	19.2	是	中
43		Q2	93	3.04	16.8	是	大
44		Q0	64	2.05	15.6	是	极大

不等码率（VBR）下请参照上表交叉对比

另外各种格式都有自己的优势码率范围：
OGG的优势范围：96K以上（OGG）
AAC的优势范围：AAC LC应高于（包含）256K AAC HE 48K-96K（ AAC HE真强）
Mp3的优势范围：192K（包含）以上
WMA的优势范围：128K（包含）以下
如果你的机器支持，128K（包含）以上请用OGG，64K-96K请用AAC(HE)
如果你的机器只支持WMA和Mp3，192K以上（包含）请用Mp3，128K以下（包含）请用WMA
64K以下什么格式都很衰，所以请至少保留64K以上的码率。

单从频率范围来讲：

对于1个理论上的正常人来说，听觉范围大约为50Hz-20KHz。那么你的选择为

Mp3 CBR 码率高于（包含）224K
WMA 码率高于（包含）224K
AAC LC 码率高于（包含）256K 、AAC HE 码（包含）率高于48K
OGG 码率高于（包含）192K
Mp3-pro 码率高于（包含）80K
■ Mp3 VBR 高频不合格！
对于1个普通音乐迷来说，听觉范围大约为1KHz~16KHz。那么你的选择为
Mp3 CBR 码率高于（包含）192K
Mp3 VBR 码率高于V6编码即高于128K
WMA 码率高于（包含）128K
AAC LC 码率高于（包含）128K、AAC HE 码率高于（包含）48K
OGG 码率高于（包含）96K
Mp3-Pro 码率高于（包含）56K
当然还有金耳朵们，听觉范围大约为 20Hz~22KHz 。那么你的选择为
首先当然是无损，然后有损里面可以试试：
Mp3 CBR 码率高于（包含）224K
WMA 码率高于（包含）224K
AAC LC 码率高于（包含）256K、AAC HE 码率高于（包含）48K
OGG 码率高于（包含）192K
Mp3-Pro 码率高于（包含）80K
■ Mp3 VBR 高频不合格！

当然，每个人都有自己的感觉

例如Mp3 CBR的低频有点差，所以听古典音乐觉得很生硬……等等
这个感觉问题就只有大家自己慢慢体会了!
附：各频率对人耳的刺激即听觉感受
16K～20KHz频率：
这段频率范围实际上对于人耳的听觉器官来说，已经听不到了，因为人耳听觉的最高频率是15.1KHz。但是，人可以通过人体和头骨、颅骨将感受到的16～20KHz频率的声波传递给大脑的听觉脑区，因而感受到这个声波的存在。这段频率影响音色的韵味、色彩、感情味。如果音响系统的频率响应范围达不到这个频率范围，那么音色的韵味将会失落；而如果这段频率过强，则给人一种宇宙声的感觉，一种幻觉，一种神秘莫测的感觉，使人有一种不稳定的感觉。因为这些频率大多数是基音的不谐和音频率，所以会产生一种不安定的感受。这段频率在音色当中强度很小，但是很重要，是音色的表现力部分，也是常常被人们忽略的部分，甚至有些人根本感觉不到它的存在。
12K～16KHz频率：
这是人耳可以听到的高频率声波，是音色最富于表现力的部分，是一些高音乐器和高音打击乐器的高频泛音频段，例如镲、铃、铃鼓、沙锤、铜刷、三角铁等打击乐器的高频泛音，可给人一种“金光四射”的感觉，强烈地表现了各种乐器的个性。如果这段频率成分不足，则音色将会会失掉色彩，失去个性；而如果这段频率成分过强，如激励器激励过强，音色会产生“毛刺”般尖噪、刺耳的高频噪声，对此频段应给予一定的适当的衰减。
10K～12KHz频率：
这是高音木管乐器的高音铜管乐器的高频泛音频段，例如长笛、双簧管、小号、短笛等高音管乐器的金属声非常强烈。如果这段频率缺乏，则音色将会失去光泽，失去个性；如果这段频率过强，则会产生尖噪，刺耳的感觉。
8K～10KHz频率：
这段频率s音非常明显，影响音色的清晰度和透明度。如果这频率成分缺少，音色则变得平平淡淡；如果这段频率成分过多，音色则变得尖锐。
6K～8KHz频率：
这段频率影响音色的明亮度，这是人耳听觉敏感的频率，影响音色清晰度。如果这段频率成分缺少，则音色会变得暗淡；如果这段频率成分过强，则音色显得齿音严重。
5K～6KHz频率：
这段频率最影响语音的清晰度、可懂度。如果这段频率成分不足，则音色显得含糊不清；如果此段频率成分过强，则音色变得锋利，易使人产生听觉上的疲劳感。
4K～5KHz频率：
这段频率对乐器的表面响度有影响。如果这段频率成分幅度大了，乐器的响度就会提高；如果这段频率强度变小了，会使人听觉感到这种乐器与人耳的距离变远了；如果这段频率强度提高了，则会使人感觉乐器与人耳的距离变近了。
4KHz频率：
这个频率的穿透力很强。人耳耳腔的谐振频率是1K～4KHz所以人耳对这个频率也是非常敏感的。如果空虚频率成分过少，听觉能力会变差，语音显得模糊不清了。如果这个频率成分过强了，则会产生咳声的感觉，例如当收音机接收电台频率不正时，播音员常发出的咳音声。
2K～3KHz频率：
这段频率是影响声音明亮度最敏感的频段，如果这段频率成分丰富，则音色的明亮度会增强，如果这段频率幅度不足，则音色将会变得朦朦胧胧；而如果这段频率成分过强，音色就会显得呆板、发硬、不自然.
1K～2KHz频率：
这段频率范围通透感明显，顺畅感强。如果这段频率缺乏，音色则松散且音色脱节；如果这段频率过强，音色则有跳跃感。
800Hz频率：
这个频率幅度影响音色的力度。如果这个频率丰满，音色会显得强劲有力；如果这个频率不足，音色将会显得松弛，也就是800Hz以下的成分特性表现突出了，低频成分就明显；而如果这个频率过多了，则会产生喉音感。人人都有一个喉腔，人人都有一定的喉音，如果音色中的喉音成分过多了，则会失掉语音的个性、失掉音色美感。因此，音响师把这个频率称为"危险频率"，要谨慎使用。
500Hz～1KHz频率：
这段频率是人声的基音频率区域，是一个重要的频率范围。如果这段频率丰满，人声的轮廓明朗，整体感好；如果这段频率幅度不足，语音会产生一种收缩感；如果这段频率过强，语音就会产生一种向前凸出的感觉，使语音产生一种提前进人人耳的听觉感受。
300Hz～500Hz频率：
这段频率是语音的主要音区频率。这段频率的幅度丰满，语音有力度。如果这段频率幅度不足，声音会显得空洞、不坚实；如果这段频率幅度过强，音色会变得单调，相对来说低频成分少了，高频成分也少了，语音会变成像电话中声音的音色一样，显得很单调。
150Hz～300Hz频率：
这段频率影响声音的力度，尤其是男声声音的力度。这段频率是男声声音的低频基音频率，同时也是乐音中和弦的根音频率。如果这段频率成分缺乏，音色会显得发软、发飘，语音则会变得软绵绵；如果这段频率成分过强，声音会变得生硬而不自然，且没有特色。
100Hz～150Hz频率：
这段频率影响音色的丰满度。如果这段频率成分增强，就会产生一种房间共鸣的空间感、混厚感；如果这段频率成分缺少，音色会变得单薄、苍白；如果这段频率成分过强，音色将会显得浑浊，语音的清晰度变差。
60Hz～100Hz：
这段频率影响声音的混厚感，是低音的基音区。如果这段频率很丰满，音色会显得厚实、混厚感强。如果这段频率不足，音色会变得无力；而如果这段频率过强，音色会出现低频共振声，有轰鸣声的感觉。
20Hz～60Hz频率：
这段频率影响音色的空间感，这是因为乐音的基音大多在这段频率以上。这段频率是房间或厅堂的谐振频率。如果这段频率表现的充分，会使人产生一种置身于大厅之中的感受；如果这段频率缺乏，音色会变得空虚；而如果这段频率过强，会产生一种嗡嗡的低频共振的声音，严重地影响了语音的清晰度和可懂度。