I. 声音:
1,物理学定义:一种以声波(acoustic wave)形式传播的振动(vibration),通过气体,液体固体等介质传播。
2,心理物理定义:这种声波的传播依靠大脑。
3,声音也以纵波的形式在气体,等离子体和液体中传播,被称为压缩波(compression wave)
4,人耳可以听到的范围:20-20000HZ
II.声音的量化特征
1,知觉特征:Loudness(响度),Pitch(音高),Timbre(Tone color)(音色)。
2,物理特征 Intensity(强度),Frequency(频率),Time variation and harmonic spectrum(时间变化和频谱图)
III.音高和频率
1,频率:一种感知标准,低音高意味着低频率的振动,高音高意味着高频率的振动。
2,频率:一种物理标准,对于周期性的声波或信号,f=1/T。
3,音高近似地以对数方式取决于频率。
IV.强度和响度
1,强度客观地比较单位面积声功率,响度主观地测量耳朵感知声音的强弱。
2,分贝(Decibel):用来测量声级差的对数工具。
例如:一个扬声器播放声音P1功率,另一个播放声音P2功率,其他要素的保持相同。
10log(P2/P1)dB
- P2 是P1的两倍
10log(P2/P1)dB=10log23dB
- P2是P1的一百万倍
10log(P2/P1)dB=10log1000000=60dB
V.音色
1,强烈依赖于包络线(时间变化),也依赖于频谱。
2,频谱与谐波:
- 周期波有协谱图
- 频谱包括谐波的幅度,但不包括它们的相对相位。
- 我们的耳朵对相位不敏感
- 谐波级数:一组频率f,2f,3f,4f,其中f为基频。
VI.数字声波
1,问题:计算机采集的是离散数据。因此,我们需要将连续的信号转换为离散的数据。
- 采样(Sampling):将时变电压信号(time-varying voltage)转换为一个实数序列——离散时间信号(discrete-time signal)
- 量化(Quantization):将每个实数替换成一组有限的离散值的近似值。
2,采样周期(Sampling period)=1/采样率(Sampling rate)
3,典型采样率:
采样率 | 用例 |
8kHz | 电话和加密对讲机,无线对讲机和无线麦克风传输 |
16kHz | 大多数现代VolP和VVolP通信产品 |
22.05kHz | CD采样率的一半,用于低质量的PCM和MPEG音频 |
44.1kHz | CD音频,也是最常用的MPEG-1音频(VCD,SVCD,MP3) |
VII.基本的数字信号处理
1,加窗(Windowing):
- 背景:声音信号由一系列的声音事件(如一个词语)构成的。声音信号随时间变化,为了获得信号中的信息,我们必须要将信号切割成足够短的片段以保证声音信号的属性在这段时间没有变化。
- 定义:指将输入信号分割成时间片段。
- 最简单的开窗就是应用一个矩形窗口。然后,线段的边界会显示为不连续性,这与现实世界的信号不一致
- 窗口函数:一种平滑函数,在边界处取0。通过将输入信号与窗函数相乘,窗函数也在边界处变为零,使得边界处的不连续性变得不可见。(加窗会改变信号)
- 加窗的帧:窗的大小(windowing size)=2*移帧(hop size/frame shift)
2,卷积(Convolution):
- 卷积是一种组合两个信号以形成第三个信号的数学方法。它是数字信号处理中最重要的技术。使用脉冲分解策略,系统由称为脉冲响应的信号来描述。
- 公式如下: