2020年计算机语音顶会,京东智联云4篇论文入选国际语音顶级大会Interspeech 2020

最新推荐文章于 2022-07-23 11:30:49 发布

北广阿橘

最新推荐文章于 2022-07-23 11:30:49 发布

阅读量318

点赞数

文章标签： 2020年计算机语音顶会

声音事件检测和定位在智能家居、智能安防等领域具有重要的应用价值，而环境中的噪声、混响、多声源混叠等给该任务带来了巨大挑战。声音事件检测和定位通常基于麦克风阵列，更广泛而言，如何有效利用多通道麦克风信号，提高基于深度神经网络的语音相关任务的性能，也是仍需解决的问题。

本文提出了一种基于多方位波束形成和多任务学习的声音事件检测和定位方法，主要特点为利用传统声学信号处理为神经网络提供更为丰富的信息。具体而言，通过指向不同预定方位的固定波束形成，可提取各个方位的声源信号，并抑制该方位之外的干扰信号。该方法无需预先进行声源定位或掩蔽估计，即可获得差异化多样化的空间表示。

本文推导了采用训练数据基于互功率谱的导向矢量计算方法，以消除对麦克风阵列几何信息的依赖。进一步，本文分别设计了声源定位网络和基于多任务学习的声音事件检测网络。我们在DCASE2019声音事件检测和定位数据集上进行了评估，结果表明所提算法取得了最好的综合性能。

2、SkipConvNet: 基于功率谱最优平滑及跨层卷积神经网络的语音去混响

(Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping)

本文所述研究为京东人工智能研究院和德克萨斯大学达拉斯分校的合作研究项目。全卷积神经网络的有效性已经在众多语音应用中得到展现。该网络的一个重要变体是“ UNet”，即包含跨层连接的encoder-decoder的卷积网络。

本研究提出了基于“ SkipConvNet”的降混响算法，该算法用多个卷积网络替换UNet的每个跨层连接，为decoder提供更为直观的信息表示，以提高网络性能。本文还提出了基于最优平滑功率谱估计的预处理步骤，这有助于进一步提高网络的学习能力。采用REVERB Challenge语料库的实验结果表明，所提方法在客观质量评估上显著优于基线系统，并明显改善混响条件下的语音识别及说话人识别性能。

3、FFSVC 2020Challenge JD AI声纹验证系统

(The JD AI Speaker Verification System for the FFSVC 2020 Challenge)