【笔记】专访大象声科汪德亮：利用深度学习解决「鸡尾酒会问题」

最新推荐文章于 2021-02-19 15:18:07 发布

稻蛙

最新推荐文章于 2021-02-19 15:18:07 发布

阅读量1.9k

点赞数 1

分类专栏：数据产品案例文章标签：声源分离深度学习数据应用案例

本文链接：https://blog.csdn.net/u013382288/article/details/78531748

版权

77 篇文章 12 订阅

订阅专栏

 
 案例来源：机器之心 @吴攀 

 
 案例地址：https://www.jiqizhixin.com/articles/2017-02-11-4 

 
 （以下为案例的简要概述，便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文，如有侵权请告知，谢谢） 

 
 1. 目标：声源分离，区分背景音和说话声音等声源，放大需要的声音。可应用于助听器等。 

 
 2. 思路： 

 
 早期的声源分离把一个信号分得很细，将一个信号分成多个组成部分——一个属于这个声源，另一个属于那个声源。 

 
 可以将声源分离转化成二分类问题：把一个听觉信号在时间域和频率域两个维度进行表示，这样就有了一个二维矩阵，矩阵中每一个元素成为一个“时频元”。每个“时频元”只有两种类型，“是目标声源”和“不是目标声源”。通过这种方式，就可以将声源分离转换成监督问题。 

 
 监督问题就可以用机器学习的方法解决。 

 
 3. 训练：采用神经网络训练分类器，文中未提到具体的神经网络模型。文章认为目前最大的问题还是标引的数据，需要不同场景的有标引的声音数据。 

 
 4. 效果：可以在背景音>目标声源8分贝的情况下识别目标声源。 

关注