声音的物理、心理特性与数字化处理：从声波到数字信号-CSDN博客

本文链接：https://blog.csdn.net/m0_74756454/article/details/136431623

1，物理学定义：一种以声波（acoustic wave）形式传播的振动（vibration)，通过气体，液体固体等介质传播。

2，心理物理定义：这种声波的传播依靠大脑。

3，声音也以纵波的形式在气体，等离子体和液体中传播，被称为压缩波（compression wave）

4，人耳可以听到的范围：20-20000HZ

1，知觉特征：Loudness（响度），Pitch（音高），Timbre（Tone color）（音色）。

2，物理特征 Intensity（强度），Frequency（频率），Time variation and harmonic spectrum(时间变化和频谱图）

1，频率：一种感知标准，低音高意味着低频率的振动，高音高意味着高频率的振动。

2，频率：一种物理标准，对于周期性的声波或信号，f=1/T。

3，音高近似地以对数方式取决于频率。

1，强度客观地比较单位面积声功率，响度主观地测量耳朵感知声音的强弱。

2，分贝（Decibel）：用来测量声级差的对数工具。

例如：一个扬声器播放声音P1功率，另一个播放声音P2功率，其他要素的保持相同。

10log（P2/P1)dB

10log（P2/P1)dB=10log2 $\doteq$ 3dB

10log（P2/P1)dB=10log1000000=60dB

1，强烈依赖于包络线（时间变化），也依赖于频谱。

2，频谱与谐波：

1，问题：计算机采集的是离散数据。因此，我们需要将连续的信号转换为离散的数据。

采样（Sampling）：将时变电压信号（time-varying voltage）转换为一个实数序列——离散时间信号（discrete-time signal）
量化（Quantization）:将每个实数替换成一组有限的离散值的近似值。

2，采样周期（Sampling period）=1/采样率（Sampling rate）

3，典型采样率：

采样率	用例
8kHz	电话和加密对讲机，无线对讲机和无线麦克风传输
16kHz	大多数现代VolP和VVolP通信产品
22.05kHz	CD采样率的一半，用于低质量的PCM和MPEG音频
44.1kHz	CD音频，也是最常用的MPEG-1音频（VCD，SVCD,MP3）

1，加窗（Windowing）：

背景：声音信号由一系列的声音事件（如一个词语）构成的。声音信号随时间变化，为了获得信号中的信息，我们必须要将信号切割成足够短的片段以保证声音信号的属性在这段时间没有变化。
定义：指将输入信号分割成时间片段。
最简单的开窗就是应用一个矩形窗口。然后，线段的边界会显示为不连续性，这与现实世界的信号不一致
窗口函数：一种平滑函数，在边界处取0。通过将输入信号与窗函数相乘，窗函数也在边界处变为零，使得边界处的不连续性变得不可见。（加窗会改变信号）
加窗的帧：窗的大小（windowing size）=2*移帧（hop size/frame shift）

2,卷积（Convolution）: