语音信号处理过程以及一些基本概念

最新推荐文章于 2023-11-17 09:59:21 发布

LZY0105

最新推荐文章于 2023-11-17 09:59:21 发布

阅读量2.5k

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/LZY0105/article/details/109036208

版权

本文介绍了语音信号处理中的语音分离过程，涉及深度学习中的mask和mapping方法。mask方法如IBM和IRM用于区分目标语音和噪声，而mapping则通过映射学习无干扰频谱。此外，还讨论了机器学习在语音处理中解决的分离和回归问题，以及模型性能评估的识别和比较方法。

摘要由CSDN通过智能技术生成

语音信号处理过程以及一些基本概念

语音分离的过程：首先输入数据，此时数据包括speech目标语音，noise 噪声以及混合语音（带噪语音），经过时频分解-目标计算、特征抽取等一系列操作进入到模型训练，最后分离模型。
基本知识：
1、基于深度学习的语音增强方法主要包括mask和mapping。
mask：译为掩膜、掩码，是深度学习中的常见操作。简单来说，其相当于在原始输入数据（张量）盖上一层掩膜，从而屏蔽或选择一些特定元素，因此常用于构建张量的过滤器。
1)、基于mask的方法又可以分为“理想二值掩蔽”（Ideal Binary Mask IBM）中的分离任务就成为了一个二分类问题。这类方法根据听觉感知特性，把音频信号分成不同的子带，根据每个时频单元上的信噪比，把对应的时频单元的能量设为0（噪音占主导的情况下）或者保持原样（为1）（目标语音占主导的情况下）。
2)、第二类基于Mask的方法是IRM（Ideal Ratio Mask），它同样对每个时频单元进行计算，但不同于IBM的“非零即一”，IRM中会计算语音信号和噪音之间的能量比，得到介于0到1之间的一个数，然后据此改变时频单元的能量大小。IRM是对IBM的演进，反映了各个时频单元上对噪声的抑制程度，可以进一步提高分离后语音的质量和可懂度。
2、mapping：映射。最简单的映射例子就是我们曾学过的函数映射 f(x)=y在语音信号处理过程中，我们是将混合语音映射为est。频谱映射可以使用幅度谱、功率谱、梅尔

最低0.47元/天解锁文章

LZY0105

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
语音信号处理过程以及一些基本概念

语音信号处理过程以及一些基本概念语音分离的过程：首先输入数据，此时数据包括speech目标语音，noise 噪声以及混合语音（带噪语音），经过时频分解-目标计算、特征抽取等一系列操作进入到模型训练，最后分离模型。基本知识：1、基于深度学习的语音增强方法主要包括mask和mapping。mask：译为掩膜、掩码，是深度学习中的常见操作。简单来说，其相当于在原始输入数据（张量）盖上一层掩膜，从而屏蔽或选择一些特定元素，因此常用于构建张量的过滤器。1)、基于mask的方法又可以分为“理想二值掩蔽”（Id
复制链接

扫一扫