【说话人分离】多说话人分离基础知识—鸡尾酒会问题

鸡尾酒会效应(Cocktail Party Effect

What?
语音的鸡尾酒效应是指人类在嘈杂环境中选择性关注特定声音信息的能力。
example

  1. 喧闹的鸡尾酒会上,即使周围充满音乐、交谈声等噪音,我们仍能专注于当前对话。
  2. 远处有人喊自己的名字,能瞬间捕捉。

Why?
听觉注意机制。

大脑通过选择性注意将无关声音刺激排除,同时无意识持续监测环境。当出现与自身相关的声音(如名字),听觉系统会立即将注意力转移至该声源。这种能力体现了大脑对声音优先级的分层处理。

针对鸡尾酒会效应的经典论文—Looking to Listen at the Cocktail Party

原文地址
代码复现
详细讲解

极速版概括:

  • 提出一个视觉-听觉联合模型,通过视觉信息来检测环境中谁在说什么并且分离出来;模型包含两个网络来分别分析视频和音频,通过融合层合并特征,最后使用传统的时频掩膜(Time-frequency masking)来分离语音部分。输出的时频掩码与噪声输入频谱图相乘,随后转换成时域波形,从而形成每一位说话者单独纯净的音频信号。
  • 输入是一名或多名发声对象,同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨,并对应上相应的说话者,每位发声对象对应输出时频掩码。
  • 训练过程中的数据集,是搜集大量(90000)高质量、单说话人且头部位置比较正的视频(讲座和演讲),选取其中说话声音干净的部分,通过融合不同的视频或者给视频加噪声来创建训练集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值