2.1 欲懂声纹,先学音频
从学科分类上讲,声纹技术是语音信号处理的一个分支,而语音信号处理则属于音频信号处理这个大类。
语音信号和音频信号,这二者的区别在于:
- 语音信号专指人类说话时所发出的具有社会意义的声音,
- 音频信号则泛指人类能够听到的一切声音。例如乐器发出的声音,动物发出的声音,汽车发动机发出的声音,以及人们打鼾、打喷嚏、咳嗽时发出的声音,这些都属于广义上的音频信号,但它们并不属于语音信号,所以通常也不在声纹技术研究的范畴内。
音频信号处理中的许多基础概念与知识,对于学习声纹技术来说是至关重要的。
任何声纹系统,无论其中的模型多么先进,算法多么精妙,都离不开与声音打交道。只有接上了正确的音频信号,并从其中提取出了有意义的特征表示,后面的模型才能最大程度地发挥其作用。
所以本章,我们便专门系统地学习这些与声音相关的概念与知识。本章的覆盖面较为广泛,涉及人类的听觉感知、音频接口、编码技术、离散信号处理等诸多子领域。这些子领域乍看上去,似乎互相之间并没有太大关联。然而,当我们真正着手于声纹领域的研究或工程项目时,会发现所有这些子领域的知识都不可避免地会被用到。在企业或研究机构里,