【笔记】专访大象声科汪德亮:利用深度学习解决「鸡尾酒会问题 」

案例来源:机器之心 @吴攀
(以下为案例的简要概述,便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)

1. 目标:声源分离,区分背景音和说话声音等声源,放大需要的声音。可应用于助听器等。

2. 思路:
早期的声源分离把一个信号分得很细,将一个信号分成多个组成部分——一个属于这个声源,另一个属于那个声源。
可以将声源分离转化成二分类问题:把一个听觉信号在时间域和频率域两个维度进行表示,这样就有了一个二维矩阵,矩阵中每一个元素成为一个“时频元”。每个“时频元”只有两种类型,“是目标声源”和“不是目标声源”。通过这种方式,就可以将声源分离转换成监督问题。
监督问题就可以用机器学习的方法解决。

3. 训练:采用神经网络训练分类器,文中未提到具体的神经网络模型。文章认为目前最大的问题还是标引的数据,需要不同场景的有标引的声音数据。

4. 效果:可以在背景音>目标声源8分贝的情况下识别目标声源。
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值