语音识别研究方向

最新推荐文章于 2023-10-13 12:07:01 发布

Digital-Twin

最新推荐文章于 2023-10-13 12:07:01 发布

阅读量2k

点赞数

分类专栏：学生时期-语音识别文章标签：语音识别

本文链接：https://blog.csdn.net/cg_speech/article/details/120637265

版权

学生时期-语音识别专栏收录该内容

7 篇文章 2 订阅

订阅专栏

本文探讨了远场语音识别技术的关键组成部分，包括语音激活检测（VAD）、语音唤醒和麦克风阵列。这些技术在应对噪声、混响和多人说话的复杂环境时起着重要作用。此外，还提到了车载语音识别面临的额外难题，如车内噪声和离线状态。语音增强、声源定位和去混响是提升识别准确性的关键技术。尽管存在挑战，但不断有公司致力于解决这些问题，以提供更好的用户体验。

摘要由CSDN通过智能技术生成

远场语音识别
1）语音激活检测（VAD）
```
需求背景：在近场识别场景，比如使用语音输入法时，用户可以用手按着语音按键说话，结束之后松开，由于近场情况下信噪比（signal to noise ratio, SNR））比较高，信号清晰，简单算法也能做到有效可靠。但远场识别场景下，用户不能用手接触设备，这时噪声比较大，SNR下降剧烈，必须使用VAD了。
```
2）语音唤醒（voice trigger，VT）
```
需求背景：在近场识别时，用户可以点击按钮后直接说话，但是远场识别时，需要在VAD检测到人声之后，进行语音唤醒，相当于叫这个AI（机器人）的名字，引起ta的注意，比如苹果的“Hey Siri”，Google的“OK Google”，亚马逊Echo的“Alexa”等
```
3）麦克风阵列（Microphone Array）
```
需求背景：在会议室、户外、商场等各种复杂环境下，会有噪音、混响、人声干扰、回声等各种问题。特别是远场环境，要求拾音麦克风的灵敏度高，这样才能在较远的距离下获得有效的音频振幅，同时近场环境下又不能爆音（振幅超过最大量化精度）。另外，家庭环境中的墙壁反射形成的混响对语音质量也有不可忽视的影响。
```

**语音增强（Speech Enhancement）**：
当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后，从含噪声的语音信号中提取出纯净语音的过程。

**声源定位（Source Localization）**：
使用麦克风阵列来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪以及后续的语音定向拾取

**去混响（Dereverberation）：**
声波在室内传播时，要被墙壁、天花板、地板等障碍物形成反射声，并和直达声形成叠加，这种现象称为混响。

**车载语音识别难点**
```

车内语音识别的难点很多，除了多人说话的干扰，还有胎噪、风噪，以及经常处于离线情况。据说有的公司专门在做车内降噪，还有些公司想通过智能硬件来解决，至少目前好像还没有哪个产品解决好了这个问题，并且获得了用户的口碑称赞的。
```