本发明属于语音处理技术领域,具体涉及到对数字语音序列进行说话人识别和语音识别,确定说话人身份的身份认证方法。
背景技术:
说话人识别也称为声纹识别,可以从说话人发出的声音中提取其个性特征,从而识别出当前说话人的身份。与其他生物识别技术相比,说话人识别具有一些特别的优点,比如声音获取的成本较低,用户心理上容易接受,算法负责度低,适合远程操作等。但是,人的发音容易受身体状况、情绪和外部环境的影响,因此每个人的声纹特征只具有相对稳定性,不是恒定不变的,这就给声纹识别带来不利影响。
传统的说话人识别一般是与文本无关(Text-Independent)的技术,它不限制说话人的发音内容,用户使用更加方便。但是它对发音的长度有较高的要求,通常发音长度需要达到30秒以上,才能取得令人满意的识别率,过长的发音要求降低了识别过程中用户的体验感。另一方面,在模型训练阶段,需要为每个说话人收集足够多的发音样本,用它们训练生成每个人的声学模型,这给系统管理员和用户都带来了巨大的工作量。
技术实现要素:
发明目的:针对现有技术中存在的问题,本发明提供了一种基于说话人识别和数字语音识别的身份认证方法。
技术方案:一种基于说话人识别和数字语音识别的身份认证方法,对十个汉语数字语音(0~9)组成的数字语音序列同时进行说话人识别和语音识别,以确定说话人的身份;用每个数字的声学模型对测试语音特征向量进行语音识别,得到文本序