语音信号处理过程以及一些基本概念

本文介绍了语音信号处理中的语音分离过程,涉及深度学习中的mask和mapping方法。mask方法如IBM和IRM用于区分目标语音和噪声,而mapping则通过映射学习无干扰频谱。此外,还讨论了机器学习在语音处理中解决的分离和回归问题,以及模型性能评估的识别和比较方法。
摘要由CSDN通过智能技术生成

语音信号处理过程以及一些基本概念

语音分离的过程:首先输入数据,此时数据包括speech目标语音,noise 噪声以及混合语音(带噪语音),经过时频分解-目标计算、特征抽取等一系列操作进入到模型训练,最后分离模型。
基本知识:
1、基于深度学习的语音增强方法主要包括mask和mapping。
mask:译为掩膜、掩码,是深度学习中的常见操作。简单来说,其相当于在原始输入数据(张量)盖上一层掩膜,从而屏蔽或选择一些特定元素,因此常用于构建张量的过滤器。
1)、基于mask的方法又可以分为“理想二值掩蔽”(Ideal Binary Mask IBM)中的分离任务就成为了一个二分类问题。这类方法根据听觉感知特性,把音频信号分成不同的子带,根据每个时频单元上的信噪比,把对应的时频单元的能量设为0(噪音占主导的情况下)或者保持原样(为1)(目标语音占主导的情况下)。
2)、第二类基于Mask的方法是IRM(Ideal Ratio Mask),它同样对每个时频单元进行计算,但不同于IBM的“非零即一”,IRM中会计算语音信号和噪音之间的能量比,得到介于0到1之间的一个数,然后据此改变时频单元的能量大小。IRM是对IBM的演进,反映了各个时频单元上对噪声的抑制程度,可以进一步提高分离后语音的质量和可懂度。
2、mapping:映射。最简单的映射例子就是我们曾学过的函数映射 f(x)=y在语音信号处理过程中,我们是将混合语音映射为est。频谱映射可以使用幅度谱、功率谱、梅尔

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值