前言
本文根据书籍:
Computational Analysis of Sound Scenes and Events
翻译完成,推荐大家去读原著!
开始
日常生活很少有宁静的时候,大多数情况下,都会有产生不同声音的事件不断出现,在时频域上重叠后通过传入麦克风或我们的耳朵,它们可能是从远处传来的,或被反射的,或被障碍物衍射后的声音信号。这种复杂的声学阵列(acoustic array)即构成了声音场景(auditory scene)。
比如,幻想你在家里和朋友孩子享受假期。这时的声音场景是非常集中和嘈杂的,它可能由不同的对话和噪声组成。然而,作为倾听者的你却有能力解析这个特定的场景:你可以从嘈杂的背景中轻易区分并识别出不同的声音事件(sound events),它们可能是不同的对话、背景音乐、碰杯声,甚至是孩子玩闹是弄出的古怪爆破声。听你一边朋友的对话,或者在听听另一边朋友又聊了什么,你甚至能同时听着你孩子闹出的动静,别让他们捅了篓子。这是典型鸡尾酒吧效应(cocktail party effect)。
本节的主要目的在于描述这些不同时间的潜在物理属性,并对一些基本的心理声学概念做出总结,同时我们也会概述一些声学认知模型,阐述他们具有哪些处理、解析和从声音场景中,感知声音时间的能力。
虽然人对语音和音乐的感知已经在很长的一段时间内,被当作正式的研究目标,但日常场景和事件的感知的研究才刚刚起步 (Everyday listening)。这里,日常信号指的是非音乐,非语音的,发生在日常环境中的声音信号。日常听觉最主要的特征就是其以认知为目标—即其研究的主要目标是感受听众身边的环境,和发生的事情。它通过区分和识别不同的声音时间,来对不同的声音环境(场景)进行划分。相较而言,音乐感知更注重音乐信号的声音质量(或音色),而不对声源做精确识别;语音听觉主要着手于解码语音中暗含的语言信息,和对说话人进行识别,包括说话人的身份、性别、情绪等。