「AI」一文看懂“声纹识别VPR”

最新推荐文章于 2025-04-20 11:35:25 发布

喜欢打酱油的老鸟

最新推荐文章于 2025-04-20 11:35:25 发布

阅读量6.5k

点赞数 4

文章标签：「AI」一文看懂“声纹识别VPR”

原文链接：https://www.toutiao.com/a6768992246457958915/

版权

人工智能专栏收录该内容

4206 篇文章

订阅专栏

2019-12-11 09:47:01

「AI」一文看懂“声纹识别VPR”

一、核心概念（定义、原理、优劣势、分类、评判标准）

二、技术边界（外部影响、人自身影响、假冒攻击）

三、瓶颈和机会（数据、多生物特征识别融合、5个应用领域）

四、声纹识别厂商简介（科大讯飞、得意音通、声扬科技、国音科技、快商通、远鉴科技）

1 核心概念

1、定义

声纹识别（Voice Print Recognition，简称VPR），也称为“说话人识别”，是“根据声纹特征识别某段语音所对应的说话人”的过程。

因为发音涉及到口腔、鼻腔、喉咙和胸腔的器官的共振，还有唇、齿、舌的差异，每个人说话都有自己独特的语音特征和发音习惯，即使是模仿，也难以改变说话者最本质的发音特性和声道特征，所以，就像人脸、指纹、虹膜一样，声纹也属于生物特征之一。

2、识别原理

「AI」一文看懂“声纹识别VPR”

图1 声纹识别系统架构

声纹识别是一类典型的模式识别问题，主要包含了训练和识别两个阶段。

训练阶段，算法提取训练库里的语音特征，并进行深度学习，训练出模型；识别阶段，将注册音频和待识别的音频进行特征提取之后，比对出得分，得分超过阈值，则识别通过，反之则不通过。

3、优劣势

1）声纹识别的优势

准确率高：在理想情况下（环境安静、采集质量高、发音正常），声纹识别的准确率可以达98%以上；
采集成本低：声纹采集对设备的要求不高，如今智能手机的普及，手机自带麦克风一般都能能满足采集要求，并且人在说话的时候就能无感采集，无附加操作成本；
远程操作：只需要有麦克风，就可以远程采集声纹，并通过网络传输；
不怕丢失：生物特征的特殊优势，属于身体的一部分，不会像外部密码会丢失；
隐私性弱：人们对人脸、指纹的隐私性比较敏感，而声音是每天都会说的，采集比较容易，大众接受度比较高。

2）声纹识别技术的商用发展还处于起步阶段，所以关于使用上，还存在局限性

声音易变性：一个人在不同时间、不同地点下，说话音量、音调都会有所变化，这对算法的鲁棒性要求比较高；
环境噪音：噪音会干扰声纹的特征提取，使得识别准确率大大降低，所以一些声纹厂商会自研一套音频降噪处理算法；
多人声音重叠：目前的算法技术还不能做到分离两个人重叠的声音，配合麦克风阵列，可以从源头就将不同发音方向的人声分离；
说话时长限制：太短的语音提取不了足够的声纹特征信息，固定文本内容的最短有效时长至少是0.8秒，自由文本内容是2秒（后面会对文本内容要求进行解释）；
距离限制：0.5m以内的近场识别效果会比远场好，越远音量越小，识别准确率越低；

4、分类

1）按功能角度分类，可分为以下5种

A ）声纹1:1：即声纹确认。说话人事先录入过自己的声音后，验证时，只需要说一句话，即可验证自己的身份，比对时，验证语音只和一个注册音频的对比。微信和支付宝的声纹登录功能就属于声纹1:1。

B ）声纹1:N：即声纹辨认。一个声纹库包含了N个已收集的人员声纹特征，验证时，说一句话，即可找到库里的对应人员，比对时，验证语音和N个注册音频对比。家庭机器人如果要听声识人，就会用到声纹1:N。

C）性别识别：只需说一句话，就能判断说话人的性别。

D）年龄识别：C和D这两个，属于偏娱乐性的功能，市场上对其的需求并不强烈，所以准确率也不高。不过只要有足够标注准确的数据，年龄识别的准确率还是可以提高的。

5）情绪识别：情绪识别，对于成年人来说，不同人在相同情绪下的声音的共性并不明显，而小孩或者婴儿的共性会更明显。

2）按语音文本内容角度分类，可分为以下3种：

A）固定文本，指内容固定的短语句，比如“小爱同学”，如果对智能硬件的唤醒词身份识别准确率要求较高的话，可以针对固定语句去训练一个模型，可提高识别率。

B）文本无关，指说话内容不固定，不限制语种、方言，只要说话语音达到限定的有效时长即可识别。

C）数字文本，指纯数字的文本，在微信和支付宝里的应用是8位且不重复的数字。

不同的分类，算法模型也有所不同，对应应用的领域和场景也不一样。

另外，采样率也会影响到算法模型，主流音频采样率是8k和16k，电话信道录音是8k的，手机信道录音是16k的。

5、语音质量检测

为提高识别准确率，在进行声纹识别之前，待识别音频需先经过语音质量检测，检测内容包括音频有效时长、音量大小、信噪比，这些检测项均可根据不同的使用场景和需求进行参数配置，一旦其中一项检测没有达到标准，就会返回提示给用户重新调整录音。

当然这不是必须的，根据实际的需求进行设置即可，参数配置得越严格，有利于保证识别的准确性，但会影响用户体验。

6、评判标准

声纹1:1和声纹1:N的评判标准不一样。

1）声纹1:1

声纹1:1的评判标准主要看两个，错误拒绝率（False Reject Rate，FRR）和错误接受率（False Accept Rate，FAR ）。FRR指把本应判定对“Ture”的人，判定为“False”，FAR指把本应判定为“False”的人，判定为“Ture”。二者的定义公式如下：

错误拒绝率（FRR）=被错误拒绝的样本数/应被接受的样本数*100%
错误接受率（FAR）=被错误接受的样本数/应被拒绝的样本数*100%

FAR越高，体验越好，安全性越低，FRR越高则相反，而二者是此消彼长的，可通过调整阈值进行权衡，根据不同的场景需求，调整得到不同的指标。

FAR和FRR的相互变化曲线，称为ROC曲线，曲线上FAR=FRR的点，为等错误率（EER），EER越小，算法模型越好。

「AI」一文看懂“声纹识别VPR”

图2 ROC曲线

2）声纹1:N

声纹1:N的评判标准有正确识别率（简称识别率）和Top-N准确率。

识别率指，将待识别人的语音，能从声纹库里，正确识别到对应人的概率。通常匹配分数最高，且超过阈值的，认为是识别到的人。也可称为Top 1准确率。

Top N准确率指，声纹库里，识别分数最高的前N个人，包含了待识别人的概率，称为Top N准确率。当声纹库数量比较庞大时，往往Top 1的准确率不高，就需要借助Top 5或者Top10的准确率来缩小范围。

3）性能指标

A）上传速度

声纹算法一般部署在云端，而音频上传到云端进行识别需要时间，并且音频时间越长，上传时间越长。短语句的识别，一般时长都在6秒以下，在带宽足够的情况下，上传速度非常短，几乎可以忽略不计，但是仍然需要关注此指标，避免在高并发时，速度变慢，影响体验。

有一些应用场景，比如智能家居，对整体的识别速度要求比较高，就会考虑把算法离线封装到设备端，以达到更快的反应速度，而离线部署对硬件的设备的配置要求也更高，导致成本变得更高。

B）声纹特征提取速度和比对速度

声纹的比对分为两步，特征提取和特征对比。特征提取速度与音频时长有关，实时比（Real Time Factor）为1:80时，意思是1秒能够处理80s的音频。验证比对速度是指平均每秒钟能进行的声纹比对次数，速度可以非常快，80w/s属于普遍标准。

C）阈值

在接受/拒绝二元分类系统中，通常会设定一个阈值，比对分数超过该值时才做出接受决定，根据实际的业务需求调整阈值，以平衡FAR和FRR。若要体验感好，且对安全性要求不高，可调低阈值，FAR升高，FRR降低；若对验证的安全性要求较高，可调高阈值，FAR降低，FRR升高。

2 技术边界

声纹识别和语音识别同属语音类的识别算法，技术边界也有一些类似的地方，这里把声纹识技术边界分为外部影响、人自身影响、假冒攻击三大部分。

1、外部影响

1）环境噪声

在实际的应用场景里，环境包含了各种各样的噪声，会造成一定程度上淹没了语音信号中说话人信息，使算法无法准确获取说话人的声纹特征。家庭的环境，噪声相对会小一些，如果是户外或者其他公共场合，噪声不可预测，可能有汽笛声、人声、音乐声等等，目前的技术比较难过滤掉这种噪声，所以会对识别效果有影响。

2）跨信道

市面上带录音功能的硬件设备有很多，每一部手机、智能音响、录音笔、座机等等，都是不同的录音信道，而每个信道对音频有不一样的处理方式，导致处理后声音的特征信息也会有所不同。比如智能家居，可能会用手机先注册好声音，然后实际校验声音会用智能音响、遥控器、或者某件电器所带的麦克风，像这种涉及多信道的场景，应事先测试一下算法跨信道的鲁棒性。

3）多说话人

在声学中，有一种叫鸡尾酒效应的现象，指在鸡尾酒会嘈杂的人群中，两人可以顺利交谈，尽管周围噪声很大，但人耳可以自动屏蔽噪声，而听见对方的说话声。目前的算法还没有达到只听到目标人声音的能力，在多人同时说话的时候，无法分离出目标人的声纹，提取不到准确的声纹特征，所以在多说话人的场景下，声纹的应用效果不会特别好。

有的场景还可以借助麦克风阵列，从前端对采集到的声音进行分离，只要说话人不在同一个方向对着麦克风阵列说话，语音信息就能分开采集。对于无法采用麦克风阵列的场景，研究者提出了人声分割技术，对说话人混合语音进行分割和聚类处理，从而实现多说话人的人声分离，但这种技术也只能处理不重叠的人声。

2）人自身的影响

1）时变

人的身体机能随着年龄的增长而变化，声音也会随之变化，同一人间隔时间较长的声纹特征是会有一些不同的，这会导致声纹识别系统的准确率下降。算法可以通过深度学习，在用户持续使用的过程中，不断地矫正和调整特征。但如果注册语音的录制时间点，与验证语音间隔了1年以上，很可能声音出现一些变化而导致特征改变而无法识别，这时就需要借助一些界面的引导来优化体验。

2）短语音

在很多声纹识别的应用领域，实际使用时，无法获取足够长度的测试语音，比如刑侦安防等，从而无法获取足够的声纹特征。所以研究短语音的声纹识别具有很强的现实意义，但也是目前的研究难题，短语音所包含的说话人信息变化太大，使短语音的测试准确性变化也非常大。

语音唤醒与声纹识别的结合应用越来越多，类似于“好的”、“开灯”等两个音节的语音，在实际应用中，识别效果不会太好，若有类似的唤醒语句，至少包含四个音节以上，如“小爱同学”、“小度小度”，四个字的唤醒词既不会太大降低体验，又能保证一定的声纹识别效果。

3）身体状况

人体难免会遇到感冒、发烧、鼻塞、声音沙哑等日常疾病，发声器官发生了改变，因此声纹特征也会随之改变，从而导致识别率降低。由于这类情况使声音变化的情况太多，且采集数据也很不方便，对于研究者来说，也是一项较大的挑战，研究者也在尝试将那些在正常语音中不存在的沙哑和咳嗽分离出来。

4）发音方式

语速快慢、音量大小、语气变化等不同的发音方式，语音信号的高低频信号也有所不同，会干扰声纹识别的准确性。因为实际应用中，人们在不同的场合下，说话方式不一样，比如在图书馆声音压低，在户外噪音大时，音量提高，着急时语速加快等等，所以如果要将声纹识别应用多种环境时，还应考虑人们的发音方式的变化。

5）跨语言

跨语言指，说话人在注册声纹时，使用的语言与验证声纹时的不一样，比如注册时用英文，验证时用中文。试验表明，跨语言的声纹识别准确率会受到不同程度的影响，世界上的语言种类繁多，每一种语言，器官的发音方式都不同，导致声纹特征也会不同。在实际应用中，如果较常应用某几种语言，可以针对那几种语言进行语言鲁棒性的针对性提高。

3）假冒攻击

随着声纹识别的应用普及，假冒攻击的研究也逐渐兴起。声纹的假冒攻击主要有四种，声音模仿、语音合成、声音转换、录音重放。

声音模仿对声道特征没有起到根本性的改变，所以对声纹识别算法的影响不大。
语音合成技术可借助少量语音实现说话人的模型自适应，而合成得到说话人的语音，如今已有研究区分正常语音和合成语音的声学特征之间的差异性。
声音转换即为说话人通过声音转换程序，将自己的声音转为另一个人的声音，通常分为离线训练和在线转换两个过程。现已有对声音转换检测的方法，如余弦相位谱、MGDF 相位谱分析等。
录音重放与上述三种假冒攻击方式相比，实现更容易，成本也更低，且攻击效果更好。研究者们通过信道检测算法以识别出这类攻击语音。

上述的这些攻击方法，除了声音模仿可用声纹识别算法检测，其他都可以通过活体检测来预防，也就是判断说话人的语音是真人实时说出来的，还是通过处理后得到的语音。如今已有声纹的活体检测，但对于一些超高仿人声的信道（如人工嘴）播放的录音仍有较高攻击成功的可能性。许多研究者仍在提高防攻击安全性上不断做努力。

3 瓶颈和机会

1、数据

从上述的技术边界可以看出，各种鲁棒性挑战、防攻击挑战、超短语音挑战都是目前声纹识别的瓶颈。

声纹识别技术要获得较好的应用效果，对场景的要求是比较高的，在公共安全、金融、社保领域，声纹的应用日渐成熟，展现出其独特的能力，因为这些场景下，可以要求用户在特定环境，说出特定的内容或者特定长度的语音。而在智能安防、智能硬件领域，用户的场景比较复杂，且对用户体验的要求比较高，所以算法的各方面鲁棒性要进一步提升其性能，才能支持大面积、高频的应用。

而算法要提高鲁棒性，数据是非常重要的一个环节。比如提高时变鲁棒性，需要采集同一个人连续几个月甚至几年的音频；提高跨语言鲁棒性，需要采集同一人说不同语言的语音等等。数据采集的成本很高，对于小公司来说是一笔不小的开支。采集数据时，可以另辟蹊径，和一些能产生大量数据的公司合作，如客服公司等，客户处于自由对话无感知的状态下被搜集的数据更真实，有意识地采集数据时，往往是字正腔圆地读稿子，朗读式和自由对话式的数据有一定的区别。

但在如今数据为王的年代，数据发挥着非常重要的商业价值，各家公司的数据都是保密的，要如何合作，还要从产品和商务角度去谈判，为对方提供一些有价值的服务来达成合作协议。

2、“声纹+”多生物特征识别融合

生物识别技术正进入大规模的应用阶段，多种识别叠加，使攻击成本上升。生物识别的种类有人脸、虹膜、指纹、声纹、姿态等，声纹相对于其他技术来说，采集成本低，可非接触采集，且大众接受程度高，这些优点都可以看到声纹的市场还是比较大的。

3、5个应用领域

声纹应用的领域现已覆盖金融、公安、政企、社保、智能硬件领域。

1）金融

央行发布的《移动金融基于声纹识别的安全应用技术规范》，这是央行颁布的我国金融行业的第一个生物识别技术标准，可以感受到国家对AI新兴技术的重视，且开始制定规范并展开应用，以替代一些传统的身份核验操作。比如金融贷款时，声纹与人脸识别结合，代替签字核验，提高了校验的安全性。

2）公安

近年来，电信诈骗、绑架、敲诈勒索的案件频发不绝，声纹信息在公安领域的应用优势日趋明显。我国的声纹鉴定技术已发展了20余年，所以公安系统也早早布局，对重点人员建立了全国最大的声纹库，并且对采集语音已有成熟的标准。在搜捕嫌疑人时，一般从电话信道获取声纹，再到公安声纹库里比对出结果以供参考，所以公安对声纹算法的信道鲁棒性要求较高。

3）政企会议

在大型企业里，常常需要召开大型会议，并有专人记录和整理会议记录。针对这个场景，市面上开始有智能会议系统产品，结合语音识别和声纹识别算法开发的应用，可以识别会议上谁说了什么，会议结束后自动输出文稿，免去人工记录和整理，节省时间，提高效率。在语音识别达到更好的水平时，还可以做会议的实时字幕展示，前阵子科大讯飞的AI同传已经可以做到。

4）社保

声纹识别也可以在社保领域应用，利用声纹的远程采集验证的优势，可以在刷社保卡时，增加声纹验证，以确保一证一人。

老人家每月领取养老金，需要进行生存验证，在很多农村地区，要求老人每年至少回老家一趟以证明还在世，对于一些已经跟儿女长居外地的老人来说，两地跑一趟，不仅花钱多，还劳累身心，验证也很不实时。如果声纹的身份验证可以普及开来，让老人家可以远程办理业务的同时，进行声纹注册和验证，对老人家们来说是极大的福音。

5）智能硬件

目前市场上常见的智能硬件有智能音响、机器人、智能车载等，具有查询（天气、机票等）、点播歌曲、设置闹钟、控制家电等功能。声纹识别可以让机器更智能，通过声音辨认发出语音的对象，结合其性别、年龄、历史偏好等信息，给出更加人性化和更智能的结果。

4 声纹识别厂商简介

1、厂商简介

在国内，做声纹识别的公司不多，每家公司都有各自的特点。（下列排序不分先后）

1）科大讯飞：在讯飞开放平台上，有声纹识别产品供客户调试和体验。

2）得意音通：公司位于北京海淀，核心技术团队来自清华大学。主要应用领域是金融和社保。

3）声扬科技：公司位于深圳南山，算法核心团队均来自香港名校。主要应用领域是金融、公安和社保。目前已有pre-A轮融资。

4）国音科技：公司总部位于广州，核心技术团队来自哈佛、麻省理工等名校。主要应用领域是金融、公安和社保。目前已有B轮融资。

5）快商通：公司位于厦门，核心技术团队来自清华大学。主要应用领域为智能客服。

6）远鉴科技：公司位于北京海淀，除了声纹识别，他们还有做人脸识别、语种识别等，主要应用于公安领域。

2、商业合作

寻求商业合作的公司时，需考虑到的有公司实力、可提供的售后服务、公司地点等。合作前期，可先用SDK，录制一些实际应用的音频测试其算法是否能满足需求。

声纹识别的部署方式有3种：公有云、私有云和离线部署。公有云的方式最简单快捷，且价格最便宜，但数据会存到乙方的公用服务器上；对数据安全性要求较高的公司，可选择私有云部署，费用较高，按一个项目付费的话，在几十万到上百万不等。离线部署一般是智能硬件会需要用到，这对硬件的要求比较高，费用也高，未来5G+IOT逐渐成熟之后，云端部署的方式会更多。