时域
波形
包络:时间轴分辨率不高时,包住波形的曲线。
频域
语音不是一个单独的频率,而是由声带振动产生一组谐波(只有一个频率成分)叠加而成,第一个峰叫做基音,其余的峰叫做泛音。第一个峰的频率叫做基频f0,也是相邻峰的间隔,即其他泛音频率都是f0的整数倍。基频倒数就是基音周期。
音高pitch是人耳感受到的音高,与f0是两个概念,但由于pitch不好计算,又与f0变化一致,因此ASR中提取pitch特征经常指提取f0特征。
声道相当于滤波器,对声带振动产生的信号做时域卷积,即频域乘积,相当于把某些谐波放大、某些谐波缩小。这些谐波峰的高度决定了音色,但没必要精确描述每个峰的高度,而是用共振峰来描述音色。声道滤波器频域上的包络峰值就是共振峰,F1、F2、F3...
其他
- 混响 Reverberation:反射时间小于50ms,不同角度、不同时间的漫反射声音混合起来。
- 回声 Echo:反射时间大于50ms。
- 侧音 Side Tone:通常指在终端设备(例如电话机)中,发端信号经处理后,其中一部分回馈到自身接收电话的那部分信号。
比较好的论文: