鸡尾酒会效应(Cocktail Party Effect)
What?
语音的鸡尾酒效应是指人类在嘈杂环境中选择性关注特定声音信息的能力。
example
- 喧闹的鸡尾酒会上,即使周围充满音乐、交谈声等噪音,我们仍能专注于当前对话。
- 远处有人喊自己的名字,能瞬间捕捉。
Why?
听觉注意机制。
大脑通过选择性注意将无关声音刺激排除,同时无意识持续监测环境。当出现与自身相关的声音(如名字),听觉系统会立即将注意力转移至该声源。这种能力体现了大脑对声音优先级的分层处理。
针对鸡尾酒会效应的经典论文—Looking to Listen at the Cocktail Party
极速版概括:
- 提出一个视觉-听觉联合模型,通过视觉信息来检测环境中谁在说什么并且分离出来;模型包含两个网络来分别分析视频和音频,通过融合层合并特征,最后使用传统的时频掩膜(Time-frequency masking)来分离语音部分。输出的时频掩码与噪声输入频谱图相乘,随后转换成时域波形,从而形成每一位说话者单独纯净的音频信号。
- 输入是一名或多名发声对象,同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨,并对应上相应的说话者,每位发声对象对应输出时频掩码。
- 训练过程中的数据集,是搜集大量(90000)高质量、单说话人且头部位置比较正的视频(讲座和演讲),选取其中说话声音干净的部分,通过融合不同的视频或者给视频加噪声来创建训练集。