本发明属于语音文字识别及声纹降噪领域,涉及到一种基于机器学习及深度学习的声纹降噪方法及系统。
背景技术:
地学数据采集过程中的智慧化是建设地学大数据中的一个基础环节,在地质生产的实际过程中占据重要地位。其中地质工作者在野外对地质对象观察和描述的调查数据的采集是重要的组成部分。为了支持地质工作者在野外快速采集观测到的地学数据,以往的地学数据采集系统都很重视数据录入的高效性和便捷性,但传统的文字键盘输入方式在野外条件下,效率低下,可操作性差。为了提高数据输入效率,采用了语音录入和文字识别系统,以期提高数据采集效率。使用中发现在野外使用语音录入系统时,可能存在风声、雨声、动物声等,又或是在钻探现场、采矿场或是油气开采环境下,存在着大量运作的机器噪声,这些噪音跟人声音混合在一起,会大大降低当前语音文字识别系统的文字识别正确率,从而导致当前野外地学数据采集语音录入和文字识别的准确率极低。由于这个问题,使得目前的地学数据采集系统在特殊地质工作环境下的操作效率低,可用性差。
技术实现要素:
针对上述缺点,急需一种尽可能多地去除掉在野外地质工作环境下语音录入时的环境杂音,为提高后期语音文字识别准确率奠定基础的语音录入降噪处理技术。本发明提供了一种基于机器学习及深度学习的声纹降噪方法,用于提野外语音方式采集地学数据时背景噪音大,有效语音难以准确识别的技术难题,包括如下步骤:
S1、获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频;
S2、将步骤S1获取的所述说话音频通过机器学习及深度学习模型进行学习,对说话音频中夹杂的环境音进行识别区分;
S3、将步骤S2中得到的识别过的语音进行过滤,剔除掉该语音中不属于所述特定人说话音频的环境音,得到经过初步筛查的语音;
S4、判断初步筛查的语音信噪比是否达到预设的阈值,若否,则跳转步骤S3,若是,则继续步骤S5;
S5、将步骤S4所述语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;
S6、判断声纹降噪处理后的语音中的人声纹纯净度是否达到预设的阈值,若否,则跳转步骤S5,若是,则继续步骤S7;
S7、对步骤S6所述声纹降噪后的语音进行增强;
S8、判断经过增强的语音清晰度是否达到预设的阈值,若否&#x