智能家居中语音识别算法研究_语音识别之DTW算法

本文探讨了语音识别技术,特别是在孤立词识别中广泛应用的动态时间规整(DTW)算法。介绍了语音识别的基本步骤,包括预处理、静音切除、声音分帧等,并概述了DTW算法在计算声音帧之间的距离时所采用的线性缩放和动态规划方法。
摘要由CSDN通过智能技术生成

语音识别是一种以语音为研究对象,通过语音信号处理和模式识别使得机器自动识别人类语言的高级技术,被认为是2000年至2010年间信息技术领域十大重要的科技发展技术之一。通常情况下,可以根据识别对象的不同分为三类,即孤立词识别、关键词识别和连续语音识别。其中在孤立词识别中,最常用的方法就是动态时间规整(Dynamic Time Warping,简称DTW)算法。

一、语音识别

在介绍DTW算法之前,首先简单了解一下语音识别的操作步骤。主要有5个步骤,具体流程如图1所示。

e03b3bad06b4292520e4c2cfe6eb3f0c.png

图1  语音识别流程图

1 预处理

提取真正需要分析的音频信号,主要包括静音切除和声音分帧两部分操作。其中静音切除部分主要采用的是语音活动检测(Voice Activity Detection,简称VAD)算法。声音分帧主要是通过使用移动窗函数来实现的。分帧之后各帧之间一般具有一定的交叠,如图2所示。

ba9ab76ddeab9436d1b4be3dec80e184.png

图2  音频分帧示意图 2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值