【个人总结】基于深度学习的语音分离代码及论文

一、语音分离发展历程

  1. 【代码git】语音增强发表历程——代表性文章及代码
  2. 【文章】盲原分离BSS技术文章汇总
  3. [语音分离]端到端声源分离研究:现状、进展和未来(有SI-)

二、语音数据集处理

拟采用matlab生成wav数据集,然后使用python进行wav文件的读取和处理

  1. 【代码mat】matlab生成wav文件和解析wav文件
  2. wav文件格式分析与详解
  3. 【代码py】Python 读取wav格式文件

三、语音分离评价指标

  1. SNR及Si-SNR讲解
  2. 梅尔谱系数及梅尔倒谱

四、基于深度学习的语音分离(从网络角度及通道数划分)

1. 基于DPRNN的语音分离

  1. 【代码git】Dual-Path-RNN-Pytorch
    【文章】Dual-Path RNN: Efficient Long Sequence Modeling for Time-Domain Single-Channel Speech Separation
    【论文翻译】
    【网络解析】
    【网络解析2.0】
    【论文总结】
    【loss解析–SISNR】

2. 基于深度聚类的语音分离

  1. 【文章】深度聚类用于语音分离
    Deep clustering: Discriminative embeddings for segmentation and separation

  2. 【代码git】基于深度聚类的语音增强1
    包括scp文件处理代码(用于自己数据集的处理)

  3. 【代码git】基于深度的聚类语音增强2
    包括scp具体是什么文件的介绍(用于自己数据集的处理)

  4. 【代码git】分离的评价指标——sdr

3. 基于transformer的语音分离

  1. 【代码git】基于Conformer的语音分离
    可下载LibriCSS dataset数据集
  2. 【文章】transformer用于语音分离
    ATTENTION IS ALL YOU NEED IN SPEECH SEPARATION

4. 基于各种变化网络的语音分离

  1. 【代码git】基于DPTnet的语音分离
    【文章】Dual-Path Transformer Network:端到端单声道语音分离的直接上下文感知建模
  2. 【代码git】基于DPRNN的语音分离
    【文章】 Dual-path RNN:时域单通道语音分离的高效长序列建模

5、多通道的语音分离

  1. 【文章及代码】多通道窄带深度语音分离
    【代码git】多通道窄带深度语音分离
    【文章1】Multi-channel Narrow-band Deep Speech Separation with Full-band Permutation Invariant Training
    【文章2】Multichannel Speech Separation with Narrow-band Conformer

五、第三方语音处理工具包

  1. 【工具包】Source Seperation
    一个用于语音增强&分离&去噪的工具包

六、数据集网站

  1. Datasets
  2. 一些常见语音数据集整理
  3. wsj0-2mix 台湾大学李宏毅博士上传的部分数据 some data released by Dr. Hung-yi Lee @ NTU

七、网站回答补充

  1. SpEx+:一个完整的时域说话人提取网络
  • 11
    点赞
  • 94
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值