语音识别长篇研究（四）

最新推荐文章于 2022-07-18 14:08:13 发布

编程大乐趣

最新推荐文章于 2022-07-18 14:08:13 发布

阅读量1.9k

点赞数

本文探讨了远场语音识别面临的问题，包括鲁棒性、噪声、基元选择、端点检测、低信噪比和混响。重点讨论了噪声抑制方法、回声消除、房间混响处理、多源信号干扰监测以及非平稳噪声处理。同时，指出了语音识别引擎对非线性处理的敏感性，以及词汇量、成本和体积等方面的挑战。文章还提及了语音识别在智能家居、智能客服和车载助手等领域的应用和未来发展。

摘要由CSDN通过智能技术生成

700638656ff5

承接上文

八、语音识别的瓶颈

1、鲁棒性：目前的语音识别系统对环境条件的依赖性强, 要求保持测试条件和训练条件一致, 否则系统性能会严重下降。

2、噪声问题：现有的语音识别系统大多只能工作在安静的环境下, 一旦在噪声环境下工作, 讲话人产生情绪或心理上的变化, 导致发音失真、发音速度和音调改变, 即产生Lombard 效应或Loud 效应。常用的抑制噪声的方法, 可以概括为四个方面:谱减法、环

境规整技术、不修正语音信号而是修正识别器模型使之适合噪声、建立噪声模型。

3、语音识别基元的选择：如何根据存贮空间和搜索速度的要求, 选择合适的识别单元, 如词、音节、音素。一般来讲, 要识别的词汇量越多, 所用的基元应越小越好。

4、端点监测：研究表明, 即使在安静的环境下,语音识别系统一半以上的识别错误来自端点监测器。提高端点检测技术的关键在于寻找稳定的语音参数。

5、低信噪比（signal to noise ratio, SNR）和混响（Reverberation）。远场环境要求拾音麦克风的灵敏度高，这样才能在较远的距离下获得有效的音频振幅，同时近场环境下又不能爆音（振幅超过最大量化精度）。这样的环境下，噪音必然会很大，从而使得语音质量变差，即SNR降低。另外作为家庭助手，家庭环境中的墙壁反射形成的混响对语音质量也有不可忽视的影响。为了对语音信号进行增强，提高语音的SNR，远场语音识别通常都会采用麦克风阵列。amazon的echo采用了6+1的设计（环形对称分布6颗，圆心中间有1颗），google home目前采用的是2mic的设计。在算法方面，基于麦克风阵列的波束形成（beamforming）技术已经有很多年的发展，最新的一些论文里有提到使用使用DNN来替代波束形成，实现语音增强。但效果仍然还有很大的提升空间，尤其是背景噪声很大的环境里，如家里开电视、开空调、开电扇，或者是在汽车里面等等。

6、远场语音识别（声学与麦克风阵列）

（1）多通道同步采集硬件研发：

多通道麦克风阵列技术已经被证明可以显著提升语音识别质量。当信号采集通道数足够多时，需要额外研发多通道同步技术。并且，目前消费电子上很少有集成多个麦克风的情况，相关研究成果很少，这也增加了该硬件方案的研发难度。

（2）前端麦克风阵列信号处理算法研发：

远场语音识别主要面临着回声干扰、室内混响、多信号源干扰以及非平稳噪声的干扰等。关于语音增强方面,目前存在着两个主要的技术流派：一派认为利用深度学习的方法可以实现去混响、降噪声的目的。另外一派则采用基于麦克风阵列的传统信号处理方法。从目前的产品上看，麦克风阵列信号处理的方式占主流应用市场。例如：Echo采用7个麦克风，叮咚采用8个麦克风， Google home用了2个麦克风。本文主要阐述传统信号处理方法在远场语音识别中所面临的困境。

1)回声干扰：

针对回声干扰问题，需采取回声消除技术，将设备自身播放的声音从麦克风接收到的信号中除去。该技术在手持移动端上已经非常成熟，比如speex和webrtc的开源软件中都有该算法。但是，这两个方案为了达到更大的回声抑制效果，使用了大量的非线性处理手段。而语音识别引擎对于语音信号的非线性处理非常敏感。因此，如果直接将近场回声消除技术用在远场语音识别领域，效果并不好。

2）房间混响：

房间混响是远场语音识别特有的问题。房间混响会造成麦克风接收到的信号有很长的拖尾，让人听起来感觉发闷。在实际中，人耳具有自动解混响的能力，在实际房间中相互交流并没有影响反而觉得声音饱满。但是这个对于语音识别来说是致命的。之前主要是近场识别，对去混响的需求不大，相关的研究内容不多。目前去混响技术主要以逆滤波方法、倒谱平均、谱减法为主，但这类方法对远场语音识别率提升不大。多步线性预测方法在去混响中表现不错，有兴趣的可以尝试一下。

3）鸡尾酒会问题（多源信号干扰监测）：

鸡尾酒会问题（cocktail-party problem ）是指有多个说话人情况下的语音识别问题，比如鸡尾酒会上很多人讲话。这种情况下人是有可能听清楚你关注的人在说什么的，当然手势、口型、表情以及聊天话题都会提供帮助。这种环境下的语音识别是相当有挑战的。波束形成技术是解决这个问题的一个有效手段。但是当几个说话人距离比较接近的时候，波束形成也无能为力。这个问题其实在很早以前就有相关的研究，叫做语音分离（speech separation）。有一个接近的名词叫做语音分割（speech segmentation），是指语音没有重叠，一个人说完另外一个人说，需要把语音切分成片段，然后每个片段只包含一个说话人，然后把同一个说话人的语音片段聚类到一起

最低0.47元/天解锁文章

编程大乐趣

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
语音识别长篇研究（四）

承接上文八、语音识别的瓶颈1、鲁棒性：目前的语音识别系统对环境条件的依赖性强, 要求保持测试条件和训练条件一致, 否则系统性能会严重下降。2、噪声问题：现有的语音识别系统大多只能工作在安静的环境下, 一旦在噪声环境下工作, 讲话人产生情绪或心理上的变化, 导致发音失真、发音速度和音调改变, 即产生Lombard 效应或Loud 效应。常用的抑制噪声的方法, 可以概括为四个方面:谱减法、环境规整技术...
复制链接

扫一扫