《RaDur: A Reference-aware and Duration-robust Network for Target SoundDetection》论文阅读

最新推荐文章于 2024-07-18 22:30:49 发布

qq_46079584

最新推荐文章于 2024-07-18 22:30:49 发布

阅读量310

点赞数

文章标签：深度学习音视频其他

本文链接：https://blog.csdn.net/qq_46079584/article/details/124851627

版权

ABSTRACT

目标声音检测TSD的目标是从给定的参考信号作为条件，从带噪音频里面检测到目标声音。先前的方法是用了一个条件网络从参考信号中去提取具有分辨的高维特征向量，使用这个提取出来的高维特征去检测带噪音频中的目标声音。然而，当使用不同的参考信息（噪声多的或者时间短的信号）可能降低检测的性能（对转译事件做出错误的检测）。为了解决这些问题，提出了一个基于感知的持续鲁棒性网络--RaDur。为了使得网络获取更有效的参考信息，提出了一个特征增强网络模块将带噪音频考虑进来，当产生高维特征的时候，应用注意力池化增强了相关帧的目标特征，弱化了带噪的特征。另外，一个持续的鲁棒性损失也被考虑进来。

INTRODUCTION

目标声音检测任务目的是从混合音频中识别和提取目标声音（给定一个参考信号的时候）。比如说，在一个带噪的环境里面检测说话的声音。目标声音检测和声音事件检测很类似，但是，声音事件检测时把所有预先定义好的声音事件从一个音频片段中进行分类和提取。其他的相关任务还有说话人提取：给定参考信号的情况下，从一个混合的音频中提取目标声音。

最近，提出了一个网络叫做TSDNet，从一个条件网络里面产生一个可以区分声音的高维特征作为参考信号来指导检测网络从混合音频中检测到目标声音事件。TSDNet在小数据集上提供了一个很好的检测性能，但是，发现他在短的音频段中会有检测错误的情况。另外，检测的性能高度依赖参考信号的质量，这样会导致性能的下降。

为了处理这些问题，提出了RaDur网络作为目标声音提取的网络。设计了一个特征增强模块在条件网络里面，利用与参考信号相关的混合音频的帧增强高维特征。应用了注意力池化函数指导条件网络将相关目标的帧加入进来并且忽略掉带噪的帧或者有干扰信息的帧。另外，应用了一个多尺度的特征提取器从不同的时间事件中提取特征以及提出了一个新的损失函数可以解决短时事件的问题。

整个网络由一个条件网络和一个检测网络组成。条件网络里面有一个特征增强模块并且使用注意力池化函数获得更有分辨性能的特征。检测网络里面，应用了一个多尺度的特征提取产生不同时长事件的混合音频中的多个视角。另外，损失函数更方便短时的事件。

我们发现参考信号的很多帧不会包括目标声音的信息。这些帧可能包含的时噪声或者干扰信息。最后，这些与目标不相关的帧会影响特征的性能。所以提出了注意力池化函数使得网络添加参考信息。

使用注意力池化模块可以减小由于噪声和短时事件导致的问题，但是一些参考信息的音频本身信息就很弱，实验里面，发现如果我们使用很多的参考信号或者直接使用目标音频作为参考信号，效果会很好。但是，真实的场景里面，我们没有那么多的真实的参考信号。所以为了提高特征的质量，提出了特征增强模块，作用是将混合音频到增强的特征上。增强的模块可以用在任何训练的阶段。特征增强模块是利用了先前训练阶段来指导当前的阶段。所以前面的很多轮是不需要用到这个的。设定为前10轮不用，后面开始用。另外就是，如果混合音频里面没有目标声音，增强模块也会仍旧将特征添加到混合音频里面。因此，设置一个超参数，控制增强模块。

一个融合层就是将原始的特征和增强的特征融合在一起。

算法：

参考信号的输入表示和混合音频的输入表示；

1、从方程1-5获得原始的特征；

2、从方程7获得混合音频的特征；

3、从方程6或者先前阶段得到的检测结果；

4、从混合音频特征里面选择前k帧，获得选择好的特征和相关的检测分数；

5、用方程8-9计算注意力权重；

6、使用方程11修改注意力权重；

7、使用方程12-13计算增强特征；

最终的输出就是增强的特征。

检测网络由三部分组成，多尺度的特征提取器，一个基于CNN的提取混合音频的声学表示；用了双向的GRU；帧级的分类层：由两个全连接层组成，每一个隐藏层是256，softmax函数做分类。

损失函数：TSDNet网络使用的是二分类交叉熵分数函数BCE；这篇论文里面，我们使用的是focal损失可以获得更好的性能（短时事件上）。进一步改进转译事件的性能，用了一个基于感知的focal损失。

数据集用的是Audioset-TSD数据集，这个数据集里面包含了负样本：混合音频中不包含目标声音。整个数据集由490336，40185，83334训练集，验证集，测试集。

实验结果用的是基于分段的F指标和基于事件的F指标。

qq_46079584

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《RaDur: A Reference-aware and Duration-robust Network for Target SoundDetection》论文阅读

ABSTRACT 目标声音检测TSD的目标是从给定的参考信号作为条件，从带噪音频里面检测到目标声音。先前的方法是用了一个条件网络从参考信号中去提取具有分辨的高维特征向量，使用这个提取出来的高维特征去检测带噪音频中的目标声音。然而，当使用不同的参考信息（噪声多的或者时间短的信号）可能降低检测的性能（对转译事件做出错误的检测）。为了解决这些问题，提出了一个基于感知的持续鲁棒性网络--RaDur。为了使得网络获取更有效的参考信息，提出了一个特征增强网络模块将带噪音频考虑进来，当产生高维特征的时候，...
复制链接

扫一扫

《RaDur: A Reference-aware and Duration-robust Network for Target SoundDetection》论文阅读

“相关推荐”对你有帮助么？