一、什么是声纹识别?
声纹识别,也叫做说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,来识别语音说话者身份的技术。由于每个人的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面不尽相同,因此声纹也就成为一种鉴别说话人身份的识别手段。
二、什么是声纹采集?
声纹识别系统通过采集语音,提取声纹特征,训练模型并建立声纹模型库,把待识别的语音和声纹模型库进行比对,从而实现对说话人的识别。声纹识别系统一般包括两个步骤:声纹建模和声纹验证,典型的声纹识别系统如下图所示。声纹建模过程中涉及到的语音文件采集就是所谓的声纹采集。
三、标准声纹采集终端的必要性
在声纹识别的过程中,建立庞大有效的声纹数据库并对数据进行精确标注就成了基础且重要的一环。但在实际的声纹采集过程中,由于不同的设备、不同的信道等等的差异,声纹数据库质量往往参差不齐,这些质量问题往往会影响算法模型的建立,从而导致识别准确率的降低。
为了确保入库声纹的质量,就需要通过科学、系统的研究来制定针对自然人的声纹信息标准采集流程,同时研制标准声纹采集终端,建立可操作的标准声纹采集流程,为声纹库建设提供标准支撑,也确保采集入库的各个声纹能够发挥应有的价值。
标准声纹采集终端应该特别注重以下几个方面:
1.有效克服信道差异对识别结果的干扰,比如采用多通道同时录音的方式提高声纹采集精度,且多个信道的组合能够有效覆盖目前各种主流信道;
2.充分考虑声纹信息采集内容的完整性;
3.采集过程要有明确的可操作性。
通过标准声纹采集终端,就可以采集到符合各类声纹建库要求的高质量声纹数据要求,为声纹识别、声纹鉴定和比对提供坚实的基础。
国内目前有不少公司在研发标准声纹采集