随着计算机技术的迅猛发展,人类社会已步入了高度自动化和信息化的时代。可以说计算机技术的发展大大加快了人类社会的进步。而人类社会的进步反过来又对计算机技术的发展提出了更高的要求和挑战。机器人越来越向智能化与人性化结合的方向发展,使得人们迫切要求语音控制机器人。
语音识别在人机交互方面和人类之间的交往上发挥着作用。当今社会中,机器在人类生产生活中无所不在,如工业控制系统、办公室自动化系统等,它们的存在为人们带来了更为方便、舒适和高效的生活方式。为了使人对机器的控制以及机器对人的反馈更为友善,人类需要研究智能化的机器。作为人们最直接、方便、自然的信息交流手段之一的语音则理所应当地成为人机交互的重要媒介。将语音识别与语音合成相结合,构成的机器人语音识别系统即可完成智能化机器人的接口。语言处理技术和语音识别技术正逐步成为信息技术中人机接口的关键技术,在不久的将来,通过语音识别技术与语音合成技术的结合,人们就能够通过语音命令来进行原需要利用按钮控制才可以进行的操作。
技术实现要素:
本发明的目的在于提供一种机器人语音识别系统及其工作方法,通过该系统的应用,解决了现有的传统机器人语言识别性能难以满足社会需求的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种机器人语音识别系统,包括依次连接的语音输入模块、预处理模块、特征提取模块、模式匹配模块和识别结果输出模块,所述模式匹配模块的输入端还连接有模型库,所述模型库的输入端与特征提取模块的输出端相连。
进一步地,所述语音输入模块用于接收自然语言的语音信号并将其传送至预处理模块;所述预处理模块用于对接收到的语音信号进行预处理并将处理后的语音信号传至特征提取模块,其中预处理包括语音信号的预滤波、语音信号的数字化、语音信号的预加重、语音信号的加窗分帧、语音信号的噪声抑制和语音信号的端点检测;所述特征提取模块用于对语音信号进行语音特征参数的提取,继而将提取到的语音特征参数分别传至模式匹配模块和模型库,其中语音特征包括帧特征矢量;所述模型库用于对收到的语音特征参数进行模型训练,该模型训练用于使机器人从大量的真实语音中获取模型参数,继而形成语音参考模式库;所述模式匹配模块用于将待识别的语音特征与模型库中的模型参数进行匹配,继而根据匹配距离输出语音识别结果,并将语音识别结果传至识别结果输出模块;所述识别结果输出模块用于输出语音识别结果。
进一步地,所述语音输入模块为话筒。
一种机器人语音识别系统的工作方法,该方法包括以下具体步骤:
步骤一,语音信号的采集
机器人通过其音频传感器接收自然语言的语音信号;
步骤二,语音信号的预处理
语音信号的预处理包括预滤波、语音信号的数字化、预加重、加窗分帧、噪声抑制和端点检测;所述语音信号的预处理是语音识别过程的前期预备工作,为后续各个环节的处理奠定基础;
步骤三,特征提取
将经过步骤二处理后的语音信号进行语音特征参数的提取,选用语音特征是语音识别的根本,其中语音特征为帧特征矢量;
步骤四,模型训练
对经过步骤三处理后的语音信号进行模型训练,训练的目的是让机器人从大量的真实语音中学习必要的模型参数,用于形成语音参考模式库,为识别阶段做准备;
步骤五,模式匹配
根据一定的规则,利用步骤四中模型参数对输入的语音进行模式匹配,并输出识别结果。
进一步地,步骤二中所述预滤波是采用带通滤波器,所述预滤波用于抑制输入信号各频域分量中频率超出采样频率一半的所有分量以及抑制50Hz或60Hz的电源工频信号。
进一步地,步骤二中所述语音信号的数字化包括语音信号的采样和语音信号的量化,即首先对语音信号进行采样,然后再对语音信号进行量化,继而得到离散时域的语音信号。
进一步地,步骤二中所述预加重是用于提升语音信号中高频信息部分的能量,以弥补声音的在唇部辐射时产生的高频信号部分的能量损失。
进一步地,步骤二中所述加窗分帧是将语音信号经过加窗分帧后被处理为短时语音帧,继而把每个短时语音帧看作平稳的随机信号,然后逐帧提取语音信号的特征矢量,最后得到由每一帧参数组成的语音特征参数序列。
本发明具有以下有益效果:
本发明通过对自然语言进行预处理、特征提取、模型训练和模式匹配等模块的一系列处理,从而使得机器人对自然语言进行语音识别,提高了识别的准确度和效率;通过滤波等处理措施,提高了语音信号的清晰度,从而便于识别;通过该语音识别方法,提高了机器人的智能化水平。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种机器人语音识别系统的组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种机器人语音识别系统,包括依次连接的语音输入模块、预处理模块、特征提取模块、模式匹配模块和识别结果输出模块,模式匹配模块的输入端还连接有模型库,模型库的输入端与特征提取模块的输出端相连。
其中,语音输入模块用于接收自然语言的语音信号并将其传送至预处理模块,其中语音输入模块为话筒;预处理模块用于对接收到的语音信号进行预处理并将处理后的语音信号传至特征提取模块,其中预处理包括语音信号的预滤波、语音信号的数字化、语音信号的预加重、语音信号的加窗分帧、语音信号的噪声抑制和语音信号的端点检测;特征提取模块用于对语音信号进行语音特征参数的提取,继而将提取到的语音特征参数分别传至模式匹配模块和模型库,其中语音特征包括帧特征矢量;模型库用于对收到的语音特征参数进行模型训练,模型训练用于使机器人从大量的真实语音中获取模型参数,继而形成语音参考模式库;模式匹配模块用于将待识别的语音特征与模型库中的模型参数进行匹配,继而根据匹配距离输出语音识别结果,并将语音识别结果传至识别结果输出模块;识别结果输出模块用于输出语音识别结果。
一种机器人语音识别系统的工作方法,该方法包括以下具体步骤:
步骤一,语音信号的采集
机器人通过其音频传感器接收自然语言的语音信号;
步骤二,语音信号的预处理
语音信号的预处理包括预滤波、语音信号的数字化、预加重、加窗分帧、噪声抑制和端点检测;语音信号的预处理是语音识别过程的前期预备工作,为后续各个环节的处理奠定基础;
其中,预滤波是采用带通滤波器,预滤波的目的有两个:其一是抑制输入信号各频域分量中频率超出采样频率一半的所有分量,以防止频率混叠干扰;其二是抑制50Hz或60Hz的电源工频干扰;
其中,语音信号的数字化包括语音信号的采样和语音信号的量化,即首先对语音信号进行采样,然后再对语音信号进行量化,继而得到离散时域的语音信号;
其中,预加重是用于提升语音信号中高频信息部分的能量,以弥补声音的在唇部辐射时产生的高频信号部分的能量损失;
其中,加窗分帧是将语音信号经过加窗分帧后被处理为短时语音帧,继而把每个短时语音帧看作平稳的随机信号,然后逐帧提取语音信号的特征矢量,最后得到由每一帧参数组成的语音特征参数序列;
步骤三,特征提取
将经过步骤二处理后的语音信号进行语音特征参数的提取,选用语音特征是语音识别的根本,其中语音特征为帧特征矢量;
步骤四,模型训练
对经过步骤三处理后的语音信号进行模型训练,训练的目的是让机器人从大量的真实语音中学习必要的模型参数,用于形成语音参考模式库,为识别阶段做准备;
步骤五,模式匹配
根据一定的规则,利用步骤四中模型参数对输入的语音进行模式匹配,并输出识别结果。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
最后需要说明的是,以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。