本发明属于声学信号处理技术领域,具体涉及一种基于麦克风阵列的人声检测定向方法。
背景技术:
随着电子信息技术和声学技术的发展,基于麦克风阵列的声源定向技术越来越多地被应用在各种产品上,例如:视频会议系统伴随着智能化的发展,在人们的日常生活、学习、工作中越来越普及。
在一般视频会议系统中,往往需要对会议场景的音频和视频进行实时记录,要求快速识别发言人并将摄像头很快聚焦在发言人身上。目前摄像头聚焦一般需要通过用户手动操作来实现,导致视频切换不及时,聚焦精度低,且操作麻烦。在小型的会议场所,需要的麦克风和摄像头数量较多,而且需要专门的一套控制系统进行调控,相对比较复杂。同时由于会场上会产生拍手声,翻书声等噪声,加大了对于发言人方向测定的难度。
技术实现要素:
本发明的目的在于提供一种基于麦克风阵列的人声检测定向方法,用以解决现有技术的会议系统中对于人声识别不准确且摄像头聚焦不够及时等问题。
为了实现上述任务,本发明采用以下技术方案:
步骤1:利用麦克风阵列获取声源处的音频信号;
步骤2:对步骤1获得的音频信号逐帧进行角度计算和人声判决,根据判决结果将每一帧标记为噪声信号或语音信号,输出判决为语音信号的帧和所在角度,直至音频信号的最后一帧判决结束,检测完成;
其中,对音频信号中每一帧的人声判决按照以下步骤执行:
步骤2.1:获取音频信号的当前帧,利用doa算法计算当前帧所在的角度;
步骤2.2:计算当前帧的多种属性值,所述属性值包括语音存在概率、音频信号能量和音频信噪比,然后根据属性值依次进行人声判决,若当前帧被判决为人声信号则执行步骤2.3;
若当前帧被判决为噪声信号则令当前帧的帧数+1,返回步骤2.1;
步骤2.3:标记当前帧为人声信号,并输出当前帧所在的角度,然后令当前帧的帧数+1,返回步骤2.1。
进一步的,步骤2.2中根据属性值依次进行人声判决包括如下步骤:
步骤a:计算当前帧的语音存在概率q(n),设定概率门限qthreshold,如果q(n)≥qthreshold,执行步骤b,否则当前帧判决为噪声信号;
步骤bÿ