「AI」一文看懂“声纹识别VPR”

2019-12-11 09:47:01

 

 

「AI」一文看懂“声纹识别VPR”

 

 

目录

一、核心概念(定义、原理、优劣势、分类、评判标准)

二、技术边界(外部影响、人自身影响、假冒攻击)

三、瓶颈和机会(数据、多生物特征识别融合、5个应用领域)

四、声纹识别厂商简介(科大讯飞、得意音通、声扬科技、国音科技、快商通、远鉴科技)

 

核心概念

1、定义

声纹识别Voice Print Recognition,简称VPR),也称为“说话人识别”,是“根据声纹特征识别某段语音所对应的说话人”的过程。

 

因为发音涉及到口腔、鼻腔、喉咙和胸腔的器官的共振,还有唇、齿、舌的差异,每个人说话都有自己独特的语音特征和发音习惯,即使是模仿,也难以改变说话者最本质的发音特性和声道特征,所以,就像人脸、指纹、虹膜一样,声纹也属于生物特征之一。

 

2、识别原理

「AI」一文看懂“声纹识别VPR”

 

图1 声纹识别系统架构

 

声纹识别是一类典型的模式识别问题,主要包含了训练识别两个阶段。

 

训练阶段,算法提取训练库里的语音特征,并进行深度学习,训练出模型;识别阶段,将注册音频和待识别的音频进行特征提取之后,比对出得分,得分超过阈值,则识别通过,反之则不通过。

 

3、优劣势

1)声纹识别的优势

  • 准确率高:在理想情况下(环境安静、采集质量高、发音正常),声纹识别的准确率可以达98%以上;
  • 采集成本低:声纹采集对设备的要求不高,如今智能手机的普及,手机自带麦克风一般都能能满足采集要求,并且人在说话的时候就能无感采集,无附加操作成本;
  • 远程操作:只需要有麦克风,就可以远程采集声纹,并通过网络传输;
  • 不怕丢失:生物特征的特殊优势,属于身体的一部分,不会像外部密码会丢失;
  • 隐私性弱:人们对人脸、指纹的隐私性比较敏感,而声音是每天都会说的,采集比较容易,大众接受度比较高。

 

2)声纹识别技术的商用发展还处于起步阶段,所以关于使用上,还存在局限性

  • 声音易变性:一个人在不同时间、不同地点下,说话音量、音调都会有所变化,这对算法的鲁棒性要求比较高;
  • 环境噪音:噪音会干扰声纹的特征提取,使得识别准确率大大降低,所以一些声纹厂商会自研一套音频降噪处理算法;
  • 多人声音重叠:目前的算法技术还不能做到分离两个人重叠的声音,配合麦克风阵列,可以从源头就将不同发音方向的人声分离;
  • 说话时长限制:太短的语音提取不了足够的声纹特征信息,固定文本内容的最短有效时长至少是0.8秒自由文本内容是2秒(后面会对文本内容要求进行解释);
  • 距离限制0.5m以内的近场识别效果会比远场好,越远音量越小,识别准确率越低;

 

4、分类

1)按功能角度分类,可分为以下5种

A )声纹1:1:即声纹确认。说话人事先录入过自己的声音后,验证时,只需要说一句话,即可验证自己的身份,比对时,验证语音只和一个注册音频的对比。微信和支付宝的声纹登录功能就属于声纹1:1。

B )声纹1:N:即声纹辨认。一个声纹库包含了N个已收集的人员声纹特征,验证时,说一句话,即可找到库里的对应人员,比对时,验证语音和N个注册音频对比。家庭机器人如果要听声识人,就会用到声纹1:N。

C)性别识别:只需说一句话,就能判断说话人的性别。

D)年龄识别:C和D这两个,属于偏娱乐性的功能,市场上对其的需求并不强烈,所以准确率也不高。不过只要有足够标注准确的数据,年龄识别的准确率还是可以提高的。

5)情绪识别:情绪识别,对于成年人来说,不同人在相同情绪下的声音的共性并不明显,而小孩或者婴儿的共性会更明显。

 

2)按语音文本内容角度分类,可分为以下3种

A)固定文本,指内容固定的短语句,比如“小爱同学”,如果对智能硬件的唤醒词身份识别准确率要求较高的话,可以针对固定语句去训练一个模型,可提高识别率。

B)文本无关,指说话内容不固定,不限制语种、方言,只要说话语音达到限定的有效时长即可识别。

C)数字文本,指纯数字的文本,在微信和支付宝里的应用是8位且不重复的数字。

 

不同的分类,算法模型也有所不同,对应应用的领域和场景也不一样。

 

另外,采样率也会影响到算法模型,主流音频采样率是8k和16k,电话信道录音是8k的,手机信道录音是16k的

 

5、语音质量检测

为提高识别准确率,在进行声纹识别之前,待识别音频需先经过语音质量检测,检测内容包括音频有效时长、音量大小、信噪比,这些检测项均可根据不同的使用场景和需求进行参数配置,一旦其中一项检测没有达到标准,就会返回提示给用户重新调整录音。

 

当然这不是必须的,根据实际的需求进行设置即可,参数配置得越严格,有利于保证识别的准确性,但会影响用户体验。

 

6、评判标准

声纹1:1和声纹1:N的评判标准不一样。

 

1)声纹1:1

声纹1:1的评判标准主要看两个,错误拒绝率(False Reject Rate,FRR)错误接受率(False Accept Rate,FAR )。FRR指把本应判定对“Ture”的人,判定为“False”,FAR指把本应判定为“False”的人,判定为“Ture”。二者的定义公式如下:

  • 错误拒绝率(FRR)=被错误拒绝的样本数/应被接受的样本数*100%
  • 错误接受率(FAR)=被错误接受的样本数/应被拒绝的样本数*100%

 

FAR越高,体验越好,安全性越低,FRR越高则相反,而二者是此消彼长的,可通过调整阈值进行权衡,根据不同的场景需求,调整得到不同的指标。

 

FAR和FRR的相互变化曲线,称为ROC曲线,曲线上FAR=FRR的点,为等错误率(EER),EER越小,算法模型越好。

「AI」一文看懂“声纹识别VPR”

 

图2 ROC曲线

 

2)声纹1:N

声纹1:N的评判标准有正确识别率(简称识别率)Top-N准确率

识别率指,将待识别人的语音,能从声纹库里,正确识别到对应人的概率。通常匹配分数最高,且超过阈值的,认为是识别到的人。也可称为Top 1准确率

 

Top N准确率指,声纹库里,识别分数最高的前N个人,包含了待识别人的概率,称为Top N准确率。当声纹库数量比较庞大时,往往Top 1的准确率不高,就需要借助Top 5或者Top10的准确率来缩小范围。

 

3)性能指标

A)上传速度

声纹算法一般部署在云端,而音频上传到云端进行识别需要时间,并且音频时间越长,上传时间越长。短语句的识别,一般时长都在6秒以下,在带宽足够的情况下,上传速度非常短,几乎可以忽略不计,但是仍然需要关注此指标,避免在高并发时,速度变慢,影响体验。

 

有一些应用场景,比如智能家居,对整体的识别速度要求比较高,就会考虑把算法离线封装到设备端,以达到更快的反应速度,而离线部署对硬件的设备的配置要求也更高,导致成本变得更高。

 

B)声纹特征提取速度和比对速度

声纹的比对分为两步,特征提取和特征对比。特征提取速度与音频时长有关,实时比(Real Time Factor)为1:80时,意思是1秒能够处理80s的音频。验证比对速度是指平均每秒钟能进行的声纹比对次数,速度可以非常快,80w/s属于普遍标准

 

C)阈值

在接受/拒绝二元分类系统中,通常会设定一个阈值,比对分数超过该值时才做出接受决定,根据实际的业务需求调整阈值,以平衡FAR和FRR。若要体验感好,且对安全性要求不高,可调低阈值,FAR升高,FRR降低;若对验证的安全性要求较高,可调高阈值,FAR降低,FRR升高。

 

技术边界

声纹识别和语音识别同属语音类的识别算法,技术边界也有一些类似的地方,这里把声纹识技术边界分为外部影响人自身影响假冒攻击三大部分。

1、外部影响

1)环境噪声

在实际的应用场景里,环境包含了各种各样的噪声,会造成一定程度上淹没了语音信号中说话人信息,使算法无法准确获取说话人的声纹特征。家庭的环境,噪声相对会小一些,如果是户外或者其他公共场合,噪声不可预测,可能有汽笛声、人声、音乐声等等,目前的技术比较难过滤掉这种噪声,所以会对识别效果有影响。

 

2)跨信道

市面上带录音功能的硬件设备有很多,每一部手机、智能音响、录音笔、座机等等,都是不同的录音信道,而每个信道对音频有不一样的处理方式,导致处理后声音的特征信息也会有所不同。比如智能家居,可能会用手机先注册好声音,然后实际校验声音会用智能音响、遥控器、或者某件电器所带的麦克风,像这种涉及多信道的场景,应事先测试一下算法跨信道的鲁棒性

 

3)多说话人

在声学中,有一种叫鸡尾酒效应的现象,指在鸡尾酒会嘈杂的人群中,两人可以顺利交谈,尽管周围噪声很大,但人耳可以自动屏蔽噪声,而听见对方的说话声。目前的算法还没有达到只听到目标人声音的能力,在多人同时说话的时候,无法分离出目标人的声纹,提取不到准确的声纹特征,所以在多说话人的场景下,声纹的应用效果不会特别好。

 

有的场景还可以借助麦克风阵列从前端对采集到的声音进行分离,只要说话人不在同一个方向对着麦克风阵列说话,语音信息就能分开采集。对于无法采用麦克风阵列的场景,研究者提出了人声分割技术,对说话人混合语音进行分割和聚类处理,从而实现多说话人的人声分离,但这种技术也只能处理不重叠的人声。

 

2)人自身的影响

1)时变

人的身体机能随着年龄的增长而变化,声音也会随之变化,同一人间隔时间较长的声纹特征是会有一些不同的,这会导致声纹识别系统的准确率下降。算法可以通过深度学习,在用户持续使用的过程中,不断地矫正和调整特征。但如果注册语音的录制时间点,与验证语音间隔了1年以上,很可能声音出现一些变化而导致特征改变而无法识别,这时就需要借助一些界面的引导来优化体验。

 

2)短语音

在很多声纹识别的应用领域,实际使用时,无法获取足够长度的测试语音,比如刑侦安防等,从而无法获取足够的声纹特征。所以研究短语音的声纹识别具有很强的现实意义,但也是目前的研究难题,短语音所包含的说话人信息变化太大,使短语音的测试准确性变化也非常大。

 

语音唤醒与声纹识别的结合应用越来越多,类似于“好的”、“开灯”等两个音节的语音,在实际应用中,识别效果不会太好,若有类似的唤醒语句,至少包含四个音节以上,如“小爱同学”、“小度小度”,四个字的唤醒词既不会太大降低体验,又能保证一定的声纹识别效果。

 

3)身体状况

人体难免会遇到感冒、发烧、鼻塞、声音沙哑等日常疾病,发声器官发生了改变,因此声纹特征也会随之改变,从而导致识别率降低。由于这类情况使声音变化的情况太多,且采集数据也很不方便,对于研究者来说,也是一项较大的挑战,研究者也在尝试将那些在正常语音中不存在的沙哑和咳嗽分离出来。

 

4)发音方式

语速快慢、音量大小、语气变化等不同的发音方式,语音信号的高低频信号也有所不同,会干扰声纹识别的准确性。因为实际应用中,人们在不同的场合下,说话方式不一样,比如在图书馆声音压低,在户外噪音大时,音量提高,着急时语速加快等等,所以如果要将声纹识别应用多种环境时,还应考虑人们的发音方式的变化。

 

5)跨语言

跨语言指,说话人在注册声纹时,使用的语言与验证声纹时的不一样,比如注册时用英文,验证时用中文。试验表明,跨语言的声纹识别准确率会受到不同程度的影响,世界上的语言种类繁多,每一种语言,器官的发音方式都不同,导致声纹特征也会不同。在实际应用中,如果较常应用某几种语言,可以针对那几种语言进行语言鲁棒性的针对性提高。

 

3)假冒攻击

随着声纹识别的应用普及,假冒攻击的研究也逐渐兴起。声纹的假冒攻击主要有四种,声音模仿、语音合成、声音转换、录音重放。

  • 声音模仿对声道特征没有起到根本性的改变,所以对声纹识别算法的影响不大。
  • 语音合成技术可借助少量语音实现说话人的模型自适应,而合成得到说话人的语音,如今已有研究区分正常语音和合成语音的声学特征之间的差异性。
  • 声音转换即为说话人通过声音转换程序,将自己的声音转为另一个人的声音,通常分为离线训练和在线转换两个过程。现已有对声音转换检测的方法,如余弦相位谱、MGDF 相位谱分析等。
  • 录音重放与上述三种假冒攻击方式相比,实现更容易,成本也更低,且攻击效果更好。研究者们通过信道检测算法以识别出这类攻击语音。

 

上述的这些攻击方法,除了声音模仿可用声纹识别算法检测,其他都可以通过活体检测来预防,也就是判断说话人的语音是真人实时说出来的,还是通过处理后得到的语音。如今已有声纹的活体检测,但对于一些超高仿人声的信道(如人工嘴)播放的录音仍有较高攻击成功的可能性。许多研究者仍在提高防攻击安全性上不断做努力。

 

瓶颈和机会

1、数据

从上述的技术边界可以看出,各种鲁棒性挑战、防攻击挑战、超短语音挑战都是目前声纹识别的瓶颈。

 

声纹识别技术要获得较好的应用效果,对场景的要求是比较高的,在公共安全、金融、社保领域,声纹的应用日渐成熟,展现出其独特的能力,因为这些场景下,可以要求用户在特定环境,说出特定的内容或者特定长度的语音。而在智能安防、智能硬件领域,用户的场景比较复杂,且对用户体验的要求比较高,所以算法的各方面鲁棒性要进一步提升其性能,才能支持大面积、高频的应用。

 

算法要提高鲁棒性,数据是非常重要的一个环节。比如提高时变鲁棒性,需要采集同一个人连续几个月甚至几年的音频;提高跨语言鲁棒性,需要采集同一人说不同语言的语音等等。数据采集的成本很高,对于小公司来说是一笔不小的开支。采集数据时,可以另辟蹊径,和一些能产生大量数据的公司合作,如客服公司等,客户处于自由对话无感知的状态下被搜集的数据更真实,有意识地采集数据时,往往是字正腔圆地读稿子,朗读式和自由对话式的数据有一定的区别。

 

但在如今数据为王的年代,数据发挥着非常重要的商业价值,各家公司的数据都是保密的,要如何合作,还要从产品和商务角度去谈判,为对方提供一些有价值的服务来达成合作协议。

 

2、“声纹+”多生物特征识别融合

生物识别技术正进入大规模的应用阶段,多种识别叠加,使攻击成本上升。生物识别的种类有人脸、虹膜、指纹、声纹、姿态等,声纹相对于其他技术来说,采集成本低,可非接触采集,且大众接受程度高,这些优点都可以看到声纹的市场还是比较大的。

 

3、5个应用领域

声纹应用的领域现已覆盖金融、公安、政企、社保、智能硬件领域。

 

1)金融

央行发布的《移动金融基于声纹识别的安全应用技术规范》,这是央行颁布的我国金融行业的第一个生物识别技术标准,可以感受到国家对AI新兴技术的重视,且开始制定规范并展开应用,以替代一些传统的身份核验操作。比如金融贷款时,声纹与人脸识别结合,代替签字核验,提高了校验的安全性。

 

2)公安

近年来,电信诈骗、绑架、敲诈勒索的案件频发不绝,声纹信息在公安领域的应用优势日趋明显。我国的声纹鉴定技术已发展了20余年,所以公安系统也早早布局,对重点人员建立了全国最大的声纹库,并且对采集语音已有成熟的标准。在搜捕嫌疑人时,一般从电话信道获取声纹,再到公安声纹库里比对出结果以供参考,所以公安对声纹算法的信道鲁棒性要求较高。

 

3)政企会议

在大型企业里,常常需要召开大型会议,并有专人记录和整理会议记录。针对这个场景,市面上开始有智能会议系统产品,结合语音识别和声纹识别算法开发的应用,可以识别会议上谁说了什么,会议结束后自动输出文稿,免去人工记录和整理,节省时间,提高效率。在语音识别达到更好的水平时,还可以做会议的实时字幕展示,前阵子科大讯飞的AI同传已经可以做到。

 

4)社保

声纹识别也可以在社保领域应用,利用声纹的远程采集验证的优势,可以在刷社保卡时,增加声纹验证,以确保一证一人。

 

老人家每月领取养老金,需要进行生存验证,在很多农村地区,要求老人每年至少回老家一趟以证明还在世,对于一些已经跟儿女长居外地的老人来说,两地跑一趟,不仅花钱多,还劳累身心,验证也很不实时。如果声纹的身份验证可以普及开来,让老人家可以远程办理业务的同时,进行声纹注册和验证,对老人家们来说是极大的福音。

 

5)智能硬件

目前市场上常见的智能硬件有智能音响、机器人、智能车载等,具有查询(天气、机票等)、点播歌曲、设置闹钟、控制家电等功能。声纹识别可以让机器更智能,通过声音辨认发出语音的对象,结合其性别、年龄、历史偏好等信息,给出更加人性化和更智能的结果。

 

声纹识别厂商简介

1、厂商简介

在国内,做声纹识别的公司不多,每家公司都有各自的特点。(下列排序不分先后

 

1)科大讯飞:在讯飞开放平台上,有声纹识别产品供客户调试和体验。

 

2)得意音通:公司位于北京海淀,核心技术团队来自清华大学。主要应用领域是金融和社保。

 

3)声扬科技:公司位于深圳南山,算法核心团队均来自香港名校。主要应用领域是金融、公安和社保。目前已有pre-A轮融资。

 

4)国音科技:公司总部位于广州,核心技术团队来自哈佛、麻省理工等名校。主要应用领域是金融、公安和社保。目前已有B轮融资。

 

5)快商通:公司位于厦门,核心技术团队来自清华大学。主要应用领域为智能客服。

 

6)远鉴科技:公司位于北京海淀,除了声纹识别,他们还有做人脸识别、语种识别等,主要应用于公安领域。

 

2、商业合作

寻求商业合作的公司时,需考虑到的有公司实力、可提供的售后服务公司地点等。合作前期,可先用SDK,录制一些实际应用的音频测试其算法是否能满足需求。

 

声纹识别的部署方式有3种:公有云私有云离线部署。公有云的方式最简单快捷,且价格最便宜,但数据会存到乙方的公用服务器上;对数据安全性要求较高的公司,可选择私有云部署,费用较高,按一个项目付费的话,在几十万到上百万不等。离线部署一般是智能硬件会需要用到,这对硬件的要求比较高,费用也高,未来5G+IOT逐渐成熟之后,云端部署的方式会更多。

  • 4
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值