多通道_端到端声源分离研究进展报告笔记-多通道分离

最新推荐文章于 2024-08-06 22:27:00 发布

丁丁TINTIN

最新推荐文章于 2024-08-06 22:27:00 发布

阅读量564

点赞数

文章标签：多通道

本文链接：https://blog.csdn.net/weixin_32307987/article/details/112633462

版权

之前一直不怎么理解波束成形beamformer和空间滤波相关操作，听了luo yi大佬的讲座报告之后有一些启发，可以在深蓝学院里看到相关视频

Beamformer是波束成形多通道空间滤波的方法，多通道的两种方法除了深度学习波束成形以外就是单通道方法直接拓展到多通道场景，波束成形本质是解一个带限制的优化问题，保留某一个方向来的特征，目标不是某一信号，而是保留某一方向来的信号的特征或者把某一方向来的噪声降为最低，不过端到端监督学习需要信号作为训练目标，所以常用第一个通道下的目标信号作为目标，传统的波束成形就是做空间上的滤波，一般需要一个目标方向

MVDR对于不同角度来的声音频率响应不同，会存在一个方向来的声音完全不失真，这就是一个空间滤波的效果，滤波器分为线性滤波器/非线性滤波器

基于估计mask的方法：做beamformer需要知道目标声源哪里来，就利用若干秒干净信息只包含噪声或者纯净语音的来进行方向估计，可以是空间信息也可以是协方差信息，可以利用这个信息来辅助滤波器的设计，把这个信息当成约束解这个优化问题，但是有的时候不存在这样的干净信息，就利用单通道分离目标声源来进行协方差信息估计，这个方向主要在频域上，频域上beamformer简单

基于输出的：同样利用单通道分离去预分离，希望帮助估计beamformer滤波器的值，不限时域或者频域，不限mask

基于DNN：绕过beamformer下的优化问题，如MVDR无失真条件下信噪比最大，神经网络直接估计beamformer滤波器的值，更加端到端，直接用目标麦克风上纯净信号当成联合训练的目标

这是一个时域基于输出的beamformer比较好的例子

下面的工作基于mask，但是分离部分用的是时域的tasnet，后端用频域的MVDR，好处在于相较于直接基于mask的方法考虑到了相位的信息，相位也进行了修改，使用时域损失函数sisnr对于静音部分会很敏感，会激进的把能量减的很小，MVDR对于某个声源静音部分的消音即声源的消除上不会很彻底，如何结合单通道时域损失函数激进的消音能力和多通道失真上的能力帮助一个系统联合后处理，通用的语音分离、前后端的联合优化(端到端模型怎么解决域适应问题信道不匹配问题)

基于DNN的方法可以是频域上输出复数域上的beamformer滤波器，和识别后端联合训练，下面的是时域上的基于DNN的工作，输入层做时域的beamforming，通过把多通道信号拼在一起送给网络估计两个滤波器，filter可以应用在输入的每个信号里，进行filter and sum卷积求和，是标准的beamforming做法，后面接识别的网络做联合优化，这个方法并不是解优化问题得到filter，而是直接网络学习得到

下面的工作和上一个框架类似，时域上做filter and sum，是直接用网络估计每个通道的滤波器filter，区别在于网络的设计和怎样用网络来做麦克风之间信息的共享

单通道拓展方面会有更多的工作，比较自然的扩展方式是利用多通道的特征，比如IPD通道间相位差通道间能量差，把这些信息融合进单通道模型之中，还有一种方式是可以借鉴图像把不同麦克风当成不同的通道直接送入卷积网络

多通道tasnet在单通道基础上结合一些方位信息来完成此任务，提取多通道IPD信息可以让这个提取IPD信息模块一起训练，另一个工作里抛弃了IPD的概念，直接用二维卷积来进行特征提取，捕捉不同通道特征差值

可以绕过多通道特征，如下图把wave-unet直接拓展到多通道上

现有问题和发展方向，WSJ数据集假设了只有2个人且重叠率100%(动态模拟数据产生可以避免这个问题)，这个假设不合理，开会或者对话说话人数目不确定，重叠部分也较少，最多只有两个人同时说话，怎么知道混合音频有几个说话人，保证模型有稳定的性能，可以做多说话人VAD，说话人diarization(依赖分离帮助分离可能可以帮助分离模型学到有多少人)，设计训练目标如每轮只分离一个说话人

wsj这种数据集句子长度较小，对于智能家居、手机助手等任务适用，但是需要长时间的分离比如会议转录，需要从句子方面的分离到段落方面的分离