音频信号特征_声音的特征值-CSDN博客

本文链接：https://blog.csdn.net/daydayup858/article/details/128254583

1.声音

音信号是由空气压力的变化而产生的，可以测量压力变化的强度，并绘制这些测量值随时间的变化。

声音信号经常在规律的、固定的区间内重复，每个波都具有相同形状，高度表示声音的强度，称之为振幅。

信号完成一个完整波所花费的时间为周期，信号在一秒钟内发出的波数为频率。频率是周期的倒数，单位是赫兹。

2.怎么以数字表示声音

每隔相同的时间段对声音的振幅进行测量，然后把信号转换为数字。每一次这样的测量就是一个样本，采样率是每秒的样本数。例如，采样率通常约为每秒 44,100 个样本，也就是说一个 10 秒的音乐片段有 441,000 个样本。

使用深度学习时实际上并没有处理原始格式的音频数据，是把音频数据转换为图像，然后使用标准的CNN架构处理这些图像，通常会从音频中生成声谱图。

3.时域与频域

频谱是表示相同信号的另一种方式，它显示了振幅与频率之间的关系。

4.频谱图

频谱图是组合在一起产生信号的一组频率，频谱图绘制了信号中的所有频率以及每个频率的强度或振幅，信号中的最低频率叫作基频，基频的整数倍的频率叫作谐波。

5.声谱图

信号随时间变化会产生不同的声音，因此其组成频率也会随时间而变化。

声谱图是使用 Fourier Transforms 从声音信号中生成的，Fourier Transforms 将信号分解成其组成频率，并显示信号里的每个频率的振幅。声谱图将声音信号的持续时间缩短为小的时间段，然后将 Fourier Transform 应用于每个时间段来确定该段中所含的频率，然后把所有时间段的 Fourier Transform 合为一个图。

信号的声谱图绘制了它频谱随时间的变化，就像信号的“照片”一样。它在 X 轴上绘制时间，在 Y 轴上绘制频率，就好像我们在不同的时间点一次又一次地拍摄频谱，然后将它们全部合并为一个图。声谱图是声波的“快照”，因为它是图像，所以非常适合输入处理图像的基于 CNN 的架构中。

它使用不同的颜色表示每个频率的振幅或强度。颜色越亮，信号越好。频谱图的每个垂直“切片”本质上是信号在该时间点的频谱，显示了在该时间点信号中发现的每个频率中的信号强度是如何分布的。