本文的作者是Dongchao Yang , Helin Wang, Yuexian Zou , Chao Weng,
ADSPLAB, School of ECE, Peking University, Shenzhen, China
Tencent AI Lab, Shenzhen, China.
研究动机
人类可以在有多个声源的环境下定位到自己感兴趣的声源。然而机器设备却很难做到这样。这篇论文要解决的问题就是目标声音检测(TSD):在混合音频的条件下,怎么样检测到目标音频。针对这个问题,提出了一个网络,叫做TSDNet,这个网络有两部分组成,一个条件网络和一个检测网络,前者是将目标音频转换为具有可辨识的高维特征作为后者的条件,后者是一个识别网络,就是从混合音频中依靠前者的高维特征从中提取到目标音频。为了评估网络,自制了数据集。
首先,语音中有几种任务,一种就是这篇论文说到的TSD,一种是SED(SOUND EVENT DETECTION):是把一段音频中掺杂的各种声音事件检测出来,是全部检测出来,所有相对于TSD来说,难度会比较大;还有一种是说话人提取(speaker extraction):从一个混合音频中依据目标说话人的声音特征提取到这段混合音频中该说话人的音频。
本文训练网络有两种方式:一种是自监督,一种是弱监督:只需要提供在混合音频中目标音频出现与否。没有任何时间线索信息。
数据集的制作
URBAN-TSD-strong:
URBAN-TSD-strong dataset:这个数据集里面有三种成分,分别是 混合音频数据,标签(包含了时间信息的标签),目标音频。比如说,如果混合音频中有N类事件,就产生N个正样本。对于每个正样本,随机从UrbanSound8k选取一个参考音频,这个参考音频要和目标音频是同一类别的音频。
URBAN-TSD-strong+ dataset: 样本中不包含目标事件的样本称为负样本,之所以需要这些样本的原因就是现实生活中会存在一段混合音频中没有目标事件的可能。 产生都样本的过程可以总结为:URBAN-SED里面的一些音频,从一个预定义的类集合中随机选择一个声音事件作为目标声音,在混合音频中不会出现的。负样本的时间信息设置为0。
URBAN-TSD-weak:这个数据集是一个弱标记数据集,没有事件出现的起点和终点,在混合而音频中出现了事件信息就设置为1,没有出现就设置为0。比如,来自URBAN-SED里面的音频,如果有N个事件发生,可以得到N个正样本。对于弱标记数据集来说,负样本很重要,所以产生的负样本数量和正样本数量一样多。
网络是由一个条件网络和一个检测网络组成的,条件网络的驶入是参考信号的音频或者一个特定的标签,或者二者。检测网络的数据是条件网络的输出和混合音频。其中,为了让条件网络的输出和混合音频的输出有效的融合,提出了两种融合方式,一种是把参考信号和混合音频信号的向量多幅值几份CAT到一起进行融合,一种是让参考信号和混合音频信号分别通过一维卷积提取到特征在进行乘法操作得到融合的信息。
![](https://img-blog.csdnimg.cn/b11979417f7244d991b86a13acd844cf.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAcXFfNDYwNzk1ODQ=,size_17,color_FFFFFF,t_70,g_se,x_16)
实验结果:
制作的数据集:
联合训练: