【说话人分离】多说话人分离基础知识—鸡尾酒会问题

柳安忆

已于 2025-02-20 16:25:12 修改

阅读量404

点赞数 11

分类专栏：说话人日志文章标签：人工智能语音识别

于 2025-02-20 16:03:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56645818/article/details/145748170

版权

说话人日志专栏收录该内容

6 篇文章

订阅专栏

鸡尾酒会效应（Cocktail Party Effect）

What？
语音的鸡尾酒效应是指人类在嘈杂环境中选择性关注特定声音信息的能力。
example

喧闹的鸡尾酒会上，即使周围充满音乐、交谈声等噪音，我们仍能专注于当前对话。
远处有人喊自己的名字，能瞬间捕捉。

Why？
听觉注意机制。

大脑通过选择性注意将无关声音刺激排除，同时无意识持续监测环境。当出现与自身相关的声音（如名字），听觉系统会立即将注意力转移至该声源。这种能力体现了大脑对声音优先级的分层处理。

针对鸡尾酒会效应的经典论文—Looking to Listen at the Cocktail Party

原文地址
 代码复现
 详细讲解

极速版概括：

提出一个视觉-听觉联合模型，通过视觉信息来检测环境中谁在说什么并且分离出来；模型包含两个网络来分别分析视频和音频，通过融合层合并特征，最后使用传统的时频掩膜（Time-frequency masking）来分离语音部分。输出的时频掩码与噪声输入频谱图相乘，随后转换成时域波形，从而形成每一位说话者单独纯净的音频信号。
输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨，并对应上相应的说话者，每位发声对象对应输出时频掩码。
训练过程中的数据集，是搜集大量（90000）高质量、单说话人且头部位置比较正的视频（讲座和演讲），选取其中说话声音干净的部分，通过融合不同的视频或者给视频加噪声来创建训练集。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。