声音的采样与存储

最新推荐文章于 2023-06-13 14:43:19 发布

非典型代码

最新推荐文章于 2023-06-13 14:43:19 发布

阅读量1.2k

点赞数

文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/qq_38812514/article/details/121126217

版权

一. wav声音数据，是根据声音的采集间隔，比如，声卡采样率是22.1K 样点每秒，即是 1/22100 = 0.000045秒采集一个声音点，这个声音点会转化为电压值。加入采集10秒钟，就采集了221000个电压值，这些点就可以绘制成波浪曲线，这些电压值转化为二进制或16进制的数据存到硬盘，就是你看到的99 A0 B5 C0 AA B7 9C 9A 77 6B 5E。
声音的频率是由时域信号（波浪曲线）反应出来的，通过编程做FFT运算可以看出它有哪些频率信号（比较复杂，如果想了解，可以看下大学课程信号与系统或数字信号处理）

二. 我们今天来看看声音是怎么采集以及怎么进行存储的。最早用于采集声音的设备当属留声机了，那么它的原理是怎样的呢？留声机是一种原始放音装置，其声音储存在以声学方法在唱片(圆盘)平面上刻出的弧形刻槽内。唱片置于转台上，在唱针之下旋转。通过振动膜的震动带动探针震动，最终在盘面上留下条纹以来记录声音。在播放声音时，通过这些条纹以还原声音。那么刻出来的这张圆盘，我们称之为母盘。其他的唱片都是以复制这张母盘而得到，但是效果会有所下降。这是以模拟的方式来记录声音。

那么在现代是怎么以数字的方式来记录声音呢？我们是通过测量一些电阻的电压而得到的。因为电阻受声音的影响，因而电压会有所改变。我们用时间和电压来表示下，以时间 T 为横轴，电压 V 为纵轴。如果以一个正弦波表示一段声音的高低的话，那么我们时间间隔越小的话，记录的波形就越接近正弦波。理论上无限小的话，就和正弦波是一样的。这个时间间隔的倒数我们称之为采集频率，而电压误差则称之为波形失真的大小。采集频率越大，那么波形失真就越小，存储的数据也就会越多。

下来我们再来介绍电压位数的概念。我们如果一段电压用 2 位表示的话，就有 4 种表示法（00, 01， 10， 11），那么它的刻度就是 V/3。如果我们用 3 位表示的话，就有 8 种表示法，那么它的刻度就是 V/7。同样的，记录电压位数越多，精度也就越高，波形失真就越小，存储数据就越多。记录电压我们通常称之为采样精度。我们通过所见到的 .wav 文件一般来说就是原始的存储声音文件，我们一般称它为标准。所有的声音格式到最后都是转换为 wav 格式来进行播放。我们通常所说的音频解码就是将别的格式（如 MP3）等每帧的数据转换为 pcm 格式，最后进行播放。这个转换的过程就是解码。 WAV 文件一般来说都是双通道的，也就是左右两通道都包含，如果只存在某个通道的数据，我们便称之为单声道文件。关于 audio 的更多知识，我们将在以后慢慢来分析。

非典型代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
声音的采样与存储

wav声音数据，是根据声音的采集间隔，比如，声卡采样率是22.1K 样点每秒，即是 1/22100 = 0.000045秒采集一个声音点，这个声音点会转化为电压值。加入采集10秒钟，就采集了221000个电压值，这些点就可以绘制成波浪曲线，这些电压值转化为二进制或16进制的数据存到硬盘，就是你看到的99 A0 B5 C0 AA B7 9C 9A 77 6B 5E。声音的频率是由时域信号（波浪曲线）反应出来的，通过编程做FFT运算可以看出它有哪些频率信号（比较复杂，如果想了解，可以看下大学课程信号与系统
复制链接

扫一扫