【无标题】

音频安全

文章目录

一、语音识别攻击

【2018-05-21】 图像识别攻击还没完全解决,语音识别攻击又来了!

当前的语音识别技术发展良好,各大公司的语音识别率也到了非常高的水平。语音识别技术落地场景也很多,比如智能音箱,还有谷歌 IO 大会上会打电话的 Google 助手等。

本文章的重点是如何使用对抗性攻击来攻击语音识别系统。

假设你在房间的角落放一台低声嗡嗡作响的设备就能阻碍 NSA 窃听你的私人谈话。你会觉得这是从来自科幻小说吗?其实这项技术不久就会实现。

今年 1 月,伯克利人工智能研究人员 Nicholas Carlini 和 David Wagner 发明了一种针对语音识别 AI 的新型攻击方法。只需增加一些细微的噪音,这项攻击就可以欺骗语音识别系统使它产生任何攻击者想要的输出。论文原版 or 论文中文版

虽然本文是首次提出针对语音识别系统的攻击,但也有其他例如针对图像识别模型系统的攻击(这个问题已经得到了不少研究,具体技术手段可以参考 NIPS 2017 图像识别攻防对抗总结),这些都表明深度学习算法存在严重的安全漏洞。

深度学习为什么不安全?

2013 年,Szegedy 等人引入了第一个对抗性样本,即对人类来说看似正常的输入,但却可以欺骗系统从而使它输出错误预测。Szegedy 的论文介绍了一种针对图像识别系统的攻击方法,该系统通过在图片(蜗牛图片)中添加少量专门设计的噪声,添加完的新图像对于人来说并未改变,但增加的噪声可能会诱使图像识别模型将蜗牛分类为完全不同的对象(比如手套)。进一步的研究发现,对抗性攻击的威胁普遍存在:对抗性样本在现实世界中也能奏效,涉及的改动大小最小可以只有 1 个像素;而且各种各样内容的图像都可以施加对抗性攻击。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-siNjSC2E-1679885517166)(images/搜集-一-蜗牛)]

这些攻击的例子就是深度学习的阿基里斯之踵。试想如果仅仅通过在停车标志上贴上贴纸就可能破坏自动驾驶车辆的安全行驶,那我们还怎么相信自动驾驶技术?因此,如果我们想要在一些关键任务中安全使用深度学习技术,那么我们就需要提前了解这些弱点还要知道如何防范这些弱点。

对抗攻击的两种形式

对抗攻击分为针对性攻击非针对性攻击两种形式。

非针对性对抗攻击仅仅是让模型做出错误的预测,对于错误类型却不做干预。以语音识别为例,通常攻击完产生的错误结果都是无害的,比如把「I’m taking a walk in Central Park」转变为「I am taking a walk in Central Park」。

针对性对抗攻击则危险的多,因为这种攻击通常会诱导模型产生攻击者想要的错误。例如黑客只需在「我去中央公园散步」的音频中加入一些难以察觉的噪音,模型就会将该音频转换为随机乱码,静音,甚至像「立即打 911!」这样的句子。

对抗攻击算法

Carlini 和 Wagner 的算法针对语音识别模型的进行了第一次针对性对抗攻击。它通过生成原始音频的「基线」失真噪音来欺骗模型,然后使用定制的损失函数来缩小失真直到无法听到。

基线失真是通过标准对抗攻击生成的,可以将其视为监督学习任务的变体。在监督学习中,输入数据保持不变,而模型通过更新使做出正确预测的可能性最大化。然而,在针对性对抗攻击中,模型保持不变,通过更新输入数据使出现特定错误预测的概率最大化。因此,监督学习可以生成一个高效转录音频的模型,而对抗性攻击则高效的生成可以欺骗模型的输入音频样本。

但是,我们如何计算模型输出某种分类的概率呢?

通过算法推导出此音频片段中所说的词语并不容易。难点有如每个单词从哪里开始和哪里结束?

在语音识别中,正确分类的概率是使用连接主义时空分类(CTC)损失函数计算的。设计 CTC 损失函数的关键出发点是界定音频边界很困难:与通常由空格分隔的书面语言不同,音频数据以连续波形的形式存在。因为词汇波形之间可能存在许多「特征」,所以某个句子的正确识别率很难最大化。CTC 通过计算所有可能的输出中「期望输出」的总概率来解决这个问题。

Carlini 和Wagner 做出的改进

尽管这种初始基线攻击能够成功的欺骗目标模型,但人们也容易发觉音频被改动过。这是因为 CTC 损耗优化器倾向于在已经骗过模型的音频片段中添加不必要的失真,而不是专注于目标模型更难欺骗的部分。

image-20230226163717144

Carlini&Wagner 的自定义损失函数。π 是已计算特征,δ 是已学习对抗失真,τ 是最大可接受音量,ci是一个用于最小化失真并进一步欺骗模型的参数,Li 是第 i 个输出令牌的损失。

由于针对性攻击的最薄弱环节直接决定了攻击的强力与否,Carlini 和 Wagner 引入了一个定制的损失函数,该函数会惩罚最强攻击部分的不必要的失真。以基线失真为始,该算法会迭代地最小化该函数,在保持失真的对抗性的同时逐渐降低其音量,直到人听不到为止。最终的结果是音频样本听起来与原始样本完全相同,但攻击者可以使目标语音识别模型产生任意他想要的结果。

现实世界中的对抗攻击

尽管语音攻击令人担忧,但相比其它应用类型中的攻击,语音识别攻击可能并不那么危险。例如,不像自动驾驶中的计算机视觉技术,语音识别很少成为关键应用的核心控制点。并且语音激活控件可以有 10 秒左右的时间冗余,这段时间完全可以用来正确理解命令然后再去执行。

另外,对抗性攻击理论上可以用于确保隐私。比如制造一个设备,这个设备通过发出柔和的背景噪音使监控系统系将周围的对话误认为完全沉默。即使窃听者设法记录您的对话,但要从 PB 级的非结构化原始音频搜索出有用信息,还需要将音频自动转换为书面文字,这些对抗性攻击旨在破坏这一转化过程。

不过目前还并没有大功告成。Carlini & Wagner 的攻击在使用扬声器播放时会失效,因为扬声器会扭曲攻击噪音的模式。另外,针对语音转文本模型的攻击必须根据每段音频进行定制,这个过程还不能实时完成。回顾过去,研究者们只花费了几年的时间就将 Szegedy 的初始图像攻击发展的如此强大,试想如果针对语音的对抗性攻击的发展速度也这么快,那么 Carlini 和 Wagner 的研究成果着实值得关注。

二、智能语音识别安全技术

网络安全领域智能语音识别安全技术

摘要:人类获取信息的方式主要通过语言、图像、文字三种方式。语音识别技术也称之为自动语音识别技术AutomaticSpeechRecognition(ASR),通俗地讲,这是一项可以让机器听懂人类自然语言及意图并执行相关指令或操作的技术。人类对语音识别技术的研究可追溯到20世纪50年代,但技术的落地并快速嵌入产品应用的时间却在21世纪的第一个十年的尾声,在自动语音识别飞速发展的今天,所带来的网络安全风险与暴露的技术缺陷问题也日益凸显,对企业或个人造成的影响不可小觑。本文简单论述了自动语音识别技术的运用分析,通过研究,阐述了在网络安全领域中的风险以及利用自动语音识别技术的主要攻击手段。

自动语音识别技术发展现状

人类对未知领域的探索从未停止,且脚步愈发加快。在自动语音识别技术领域的探索研究始于1952年AT&T贝尔实验室的Audry系统,该系统可识别0~9十个数字发音,从此,人类打开了自动语音识别技术的大门,并在21世纪开始了爆发式技术跃进,时至今日,自动化语音识别技术应用场景已开始实现到家居、车载、客服、教育、金融、网络安全等等各个方面,搭载有自动语音识别技术的产品数不胜数。其中在网络安全领域也得到广泛普及,例如利用自动语音识别技术监测网络语音数据及舆情监控。自动语音识别技术发展迅速,同时对国家经济发展和国家安全都有着很重要的作用。

自动语音识别技术实现原理简要说明

自动语音识别系统本质上是一套模拟识别系统,须有硬件设备与操作系统作为支撑,同时需要海量语音样本数据作为基础,通过识别特征信息进行样本匹配,进而达到语义识别的目的。由上图可看出,自动语音识别技术的核心要点主要为:(1)训练;(2)识别。两者为自动语音识别技术的核心要点。

训练

“训练”或称之为“学习”所形成的“知识库”是自动语音识别技术的基础,是自动语音识别准确率的核心要素之一,该阶段采用语音分析方法分析出语音特征参数作为标准知识储存在计算机内,形成标准“知识库”,或者称为“模板”,建立识别基本单元的声学模型以及进行句法分析的语言模型等。

识别

“识别”或者称之为“匹配”是语音数据输入后对该数据进行分析处理,匹配“知识库”的阶段,该阶段同样是自动语音识别准确率的核心要素之一,提取语音数据中的特征参数,按照一定的准则和测度与系统模型进行比较,通过匹配判决得出识别结果。

自动语音识别技术目前的应用领域

自动语音识别技术发展至今日,市场上尚未出现一款很成熟的应用,准确识别一段语言,相关因素很多,除了不同语种的差别,即使是汉语,在加入方言、口音、同音字词等这些因素后也会产生海量的语音数据要识别。目前自动语音识别主要有四类应用方向,一是简单指令或有限字词的识别,二是智能语音问答,三是智能语音分析,四是实时语音监控分析。在网络安全监管领域,自动语音识别技术可对网络中的大量语音信息进行监听管理,防止网络风险和垃圾信息由语音形式进行传播。

自动语音识别技术应用目前面临的安全威胁

随着海量数据的积累、硬件核心计算能力的发展、语音识别技术的训练与识别手段的持续创新与演进,自动语音识别技术得到普遍部署和广泛应用,在诸多应用方面中最大两个应用落地点就是语音导航与智能音箱,语音导航与智能音箱为使用者提供极大便利,解放了双手,但在使用过程中获取了大量个人隐私数据,主要包含性别、年龄、环境、健康、想法、情绪、地理位置等多重信息,同时由于网络发展的速度远远比人们安全使用网络的意识和操作更新速度快,由此为不法分子的侵入提供了温床,这些信息一旦被恶意利用,将对企业或个人造成严重危害。自动语音识别技术作为战略性与变革性信息技术之一,给网络空间安全增加了诸多新的不确定性,自动语音识别技术应用目前所面临的安全风险主要包括:(1)软硬件的风险;(2)数据完整性风险;(3)个人数据隐私风险。

软硬件的风险

在软件及硬件层面,包括应用、模型、系统和处理器以及编码都存在漏洞或后门的可能性;攻击者能够利用这些漏洞或后门实施高级攻击。在自动语音识别技术训练模型层面上,攻击者同样可能在模型中植入后门并实施高级攻击;由于训练模型的不可解释性,在模型中植入的恶意后门难以被检测。

数据完整性风险

为了语音识别的精准性,则需要采集大量语音数据进行建模训练,因此在数据层面,攻击者能够在训练阶段掺入恶意数据,影响语音识别模型的识别能力;攻击者同样可以在判断阶段对需要判断的样本加入少量噪音,刻意改变判断结果,破坏数据完整性,以此达到恶意攻击目的。

个人数据隐私风险

在用户提供训练数据的场景下以及用户正常使用过程中均会产生大量跟个人及周边环境相关数据信息,攻击者能够通过反复查询训练好的模型或者直接攻击服务商数据中心获得用户的隐私信息。

利用自动语音识别技术的主要攻击手段

毋庸置疑,在今天看来,自动语音识别技术是一项很强大的技术,然而,与其他所有技术一样,自动语音识别技术也容易受到漏洞威胁。如果将这项技术与指纹识别等其他生物技术进行对比,我们就会发现,自动语音识别同样也会遭到黑客的攻击,被黑客盗取并利用,自动语音识别技术应用目前所面临的攻击手段主要包括:(1)伪造声纹攻击;(2)内容安全攻击;(3)个人终端伪造攻击;(4)超声波攻击。

伪造声纹攻击

通过克隆演说命令的方法或者直接盗取目标个体的声音样本,从而模拟出目标个体的声音,冒充目标的身份来绕过安全保护机制,对目标发起网络攻击,最终达到攻击目的,一旦拿到这些认证信息,就能访问目标的重要私密文件,盗取目标的个人信息。目前对声纹采取的攻击手段主要包括拼接合成攻击(通过对语音数据截切与拼接最终合成可识别的仿冒语音数据)、样本攻击(对声纹库样本进行攻击,篡改样本数据)、录音攻击(提前录制目标个体的语音样本进行攻击回放)、端到端攻击(直接攻击自动语音识别系统所搭载的终端)等。

内容安全攻击

内容攻击也是自动语音识别技术的主要脆弱点之一,我们可输入非法敏感词汇数据,而一般自动语音识别系统不具备判断输入数据是否安全的能力,从而造成恶意音频播放或者敏感信息回显,以此达到攻击的目的。

个人终端伪造攻击

目前尚无绝对安全的个人终端安全保护措施,攻击者通过劫持合法终端,从而获取通信凭证信息,达到伪造个人终端的目的,进而可执行恶意命令。

超声波攻击

普通人的耳朵可听到的频率为20Hz~20kHz,频率大于20kHz为超声波,正常人无法听到,但搭载自动语音识别的电子产品可轻松抓取并识别,例如通过向与设备连接的耳机发送一个简单的超声波信号,之后就能激活设备自动语音识别系统,从而控制你的设备并达到攻击的目的,而在这个攻击过程中目标个体根本不会有任何察觉。目前电子产品的喇叭性能提升使得攻击者无须额外硬件即可发送超声波信号,这为超声波攻击提供了极大便利性与攻击条件。

结语

随着网络技术的快速发展,网络安全问题也变得十分重要。在网络安全监管中,要充分利用语音识别技术的优势,对网络中的语音信息进行监听管理,避免网络风险和垃圾信息由语音形式进行传播。同时,充分利用自动语音识别技术的高效性和便捷性对网络用户的使用问题反馈进行相应的技术处理。但是任何技术都是一把双刃剑,自动语音识别技术给不法分子带来可乘之机,这是所有人都不能忽视的,如何规避目前自动语音识别技术所存在的风险与攻击利用手段,我们还在进一步研究中,在未来,需要进一步发展和完善自动语音识别技术的安全性,杜绝语音技术使用时的不安全因素,为消费群体提供更加坚实可靠的保障。

参考文献:

[1]罗岩.语音自动识别技术及其在电信彩铃业务中的应用研究[D].西安电子科技大学,2014.

作者:连耿雄 丘恵军 陈昊 单位:深圳供电局有限公司

三、公安实战应用

声纹识别和语音识别在公安实战中的应用

**摘要:**鉴于声学特征的唯一性、稳定性,依托人工智能、大数据和云计算技术的助推,声纹识别和语音识别技术在公安实战中发挥了重要作用,为公安业务处理提供新思路、新途径、新手段,为侦查破案提供新线索。

引言

人类发声是一个复杂的生理物理过程,它受语言中枢和多个发声器官共同支配。由于个体发声器官尺寸和形态上的差异、大脑神经的生理构造的差异、发声人的心理状态以及其所处的外界语言环境的差异,使得每个人的声纹图谱独一无二,且在一段时间内个体的声学特征稳定且唯一。为此,在一般情况下,根据声纹或语音来识别、判断说话人身份的可行性较大。

随着人工智能、大数据、云计算等技术的飞速发展,声纹识别和语音识别技术的准确性、智能性、迅捷性得到了大幅提升。声纹识别和语音识别技术逐步产业化,其典型应用场景惠及公安司法领域、智能家居、医疗服务监控、远程办公、金融行业身份确认等。近年来,我国声纹和语音识别技术发展势头迅猛,声纹识别、语音合成、语音转换、语义理解等技术已达到世界领先水平。

声纹识别和语音识别技术发展证明了语音资料作为证据的真实性和有效性,在电信诈骗等非物理空间案件中侦破中发挥了巨大的作用,其在公安实战中的应用场景不断探索与拓展。

声纹识别和语音识别技术

声纹识别技术

声纹识别是把声信号转换成电声学仪器上显示的携带语言信息的声波频谱的电信号,可以视作说话人语音中所含特征的集合,具有个体内的相对稳定性和个体之间的差异性,因此声纹可以用于个体识别以及同一认定。在采集便利性和识别迅捷性上声纹识别技术相较指纹、虹膜、人脸等生物识别技术具备明显优势,仅需监控摄像头或执法记录仪等具备麦克风功能的设备,极大提高了远程采集的成功率及识别的准确性。声纹识别技术的发展应用主要包括声纹预处理[1]、声纹特征提取[2]和识别方法[3]三个阶段。

声纹预处理

声纹预处理的目的是将干净的没有杂质的语音从带有噪声的语音中分离提取出来,是声纹识别中极其重要的一部分。具体声纹预处理方法可分为:数字信号处理机器学习两类。

声纹特征提取

声纹特征是指能体现说话人个性的特征信息,声学特征、词法特征、韵律特征、方言信息、通道信息等都可以用数学方法来进行表达[4]。在公安实战中多考虑说话人本身而不是设备信息,因此一般不考虑通道信息影响。采用深度学习算法训练海量语音数据,过程中综合采用分类和对比能量损失函数,自动抽象、归纳、总结语音信号中描述身份的特征。研究中较多使用线性预测系数[5],数据降维则多考虑线性判别分析降维(LDA)[6]。特征提取技术具有较强的泛化能力,在跨信道、不同信噪比、较长时间跨度的情况下,声纹特征仍然表现出较好的稳定性。

声纹识别

作为声纹识别技术的压轴流程,声纹识别通过模型来判定说话人的身份,目前常用的方法:高斯混合通用背景模型(GMM-UBM)[7]、联合因子分析(JFA)[8]、神经网络等。

语音识别技术

除声纹识别技术外,在电信诈骗、链条式毒品制贩等案件中也会采用语音识别技术对嫌疑人通话内容进行翻译理解以识别出通话主题。语音识别技术[9]主要包括:语音合成[10]、语音识别[11]、语义理解[12]等。

语音合成

语音合成方法主要有拼接法[13]和参数法[14]。拼接法最大限度保留了说话人的原始音色,保留了语义的自然度与清晰度。参数法通过数据构建模型,将文本特征转换为声学特征,声码器根据声学模型的输出重构语音波形[15]。从文本到语音(TTS)利用机器学习模型将给定文本转换成语音并加以输出,是语音合成技术的核心。

语音识别与语义理解

语音识别与语义理解都是基于内容处理语音,语音识别技术实现人机交互,将人的语音直接转换为相应的文本或命令[16]。语义作为数据是一种解释和逻辑表示,对应了物理空间中事物所代表的含义及含义间的关系。其中语义理解在公安领域应用的意义主要包含两方面:一是变换不同语义间的信息,二是进一步进行推理。

声纹和语音识别技术的实战能力分析

在公安业务应用中,利用声纹和语音识别技术,针对实时采集、历史采集的语音数据,提取其语音信息,再通过提取声纹模型、声纹建库、以声找人、以声定人、以语音定性等信息化手段比对鉴定,提升公安业务部门落地查证、情报挖掘、案件侦办、精准管控能力水平,为公共安全业务决策提供科学、有效的基础能力支撑。

声纹和语音采集

对于语音数据的采集主要包括两种:一是实时语音采集,二是历史语音采集。采集实时语音可通过讯(询)问、智能笔录等方式实现。双向讯问的方式适用于讯问室、信息采集室等环境,与电子笔录系统整合,实现高精度、高品质、基本信息自动关联多信道录音功能;智能分录系统适用于接处警等环境,与接处警工作站对接,实现报警人黑名单管理、报警人识别提醒等功能。历史语音采集包括电话语音与网络语音,大量的电话、网络历史语音能够用来对重点人员声纹建模。

声纹和语音比对

声纹比对在实际应用中主要有声纹确认(1:1),即在判定待检语音即假定身份人的语音;声纹辨认(1:N),即从大量声纹模型中找出这个语音属于哪个人的,或不属于本数据集。

在案件侦办方面,可通过比对声纹和语音信息,为案件侦查工作提供新的身份判别技术手段;在治安防控方面,声纹和语音比对可辅助身份查验与验证;同时声纹和语音比对技术也可应用在目标布控、触网报警、报警人身份识别、案件串并等方面。通过声纹强化串并案,助力犯罪证据收集、破案突破,为大数据分析提供新型支撑。

声纹和语音鉴定

声纹和语音鉴定需要实现同一性认定、真实性检验、语音降噪和微弱语音增强等技术应用。同一性认定是综合分析比对检材的声学特征与样本的声学特征,判断两者是否同一。其中检材一般为未知的涉案人,样本是被怀疑的已知身份的确定人,利用二者的声学特征进行身份鉴定。真实性检验是发现录音中是否存在剪辑点,鉴别数字化图谱对录音文件是否修改。大多数涉案语音文件都带有噪音,影响语音内容的听辨,语音降噪是把噪音降低、微弱语音增强,把过弱语音增强处理,提高信噪比,进而达到听辨要求。

声纹识别和语音识别在公安实战中的应用

公安工作中的应用现状

互联网技术的快速发展催生出各式各样的新型涉网犯罪,涉及语音材料的案件逐年攀升,以电信网络诈骗、网络涉恐涉毒等为代表的犯罪往往“只闻其声、不见其人”,对新时代公安机关反恐处突、侦查破案、治安防控带来了全新挑战。声纹识别和语音识别技术不仅为新型犯罪提供关键技术手段,同时还能够扩展到智慧警务新模式业务应用中。

利用声纹和语音技术进行破案,是当前公安机关打击违法犯罪的重要技术手段之一,在确定案件性质、提供侦破思路、佐证其他证据、认定说话人身份等方面起重要作用。公安实战中运用语音材料的频率在不断增加,1963年,日本警方通过分析语音材料成功侦破东京拐卖幼儿案是最早将语音识别技术应用到警务工作中。2019年公安部牵头推广声纹识别技术,各地公安机关纷纷致力于在实战中发挥声纹信息的价值:如广东省公安机关通过采集声纹信息,主动发现涉诈线索;山东省公安机关采集和共享涉诈嫌疑人声纹信息,搭建诈骗语义模板,预警高危涉诈人员来电;湖北省公安机关建立声纹数据比对模型。“飓风14号”案件就是使用声纹识别技术侦破电信诈骗案件的典型案例。该案件的侦破就是利用语音识别技术比对犯罪嫌疑人在即时通讯工具上留下的用于“工作”的语音数据与当地身份认证过的用于“生活”的语音数据,返回疑为同一人账号的对应关系,通过声纹比对定位嫌疑人身份信息,从而实施抓捕。

公安业务应用场景设计

目前,声纹识别和语音识别技术在提高公安业务处理效率,推动案件侦破能力,助力智能化警务模式的转变和发展发挥了一定的作用。本文根据公安业务特点设计以下应用场景,使声纹识别和语音识别技术进一步普惠公安业务应用。

应用于智慧社区警务工作

“发案少、秩序好、社会稳定、群众满意”是智慧社区警务的发展目标。将声纹识别和语音识别技术应用于社区人口基础信息采集等工作,达到整合大量语音数据,丰富声纹库数据来源,完善智慧警务语音云平台的建设。面对大量的信息录入工作,囿于计算机操作水平分布差异,通过引入声纹识别和语音识别技术,自动识别完成信息录入、数据存储等工作,提高基层民警工作效率,同时构建起社区声纹数据库,丰富智慧社区平台数据源。

例如,装备便于携带的语音识别工具,民警可以迅速准确进行方言、外语与普通话的切换,更好进行情况了解、案件调查。在户籍信息、罚款缴费等服务部门引入智能语音机器人,通过语音识别引导办理相关业务,方便群众高效及时完成业务办理,实现智能警务服务模式,完善公安机关服务体系。

采集、构建重点人员声纹库

通过收集海量已知身份的声纹信息建立声纹库,使用声纹识别和语音识别技术实现在声纹库中搜索比对相似声纹。将采集的语音存储至声纹库,按需分类,形成各种专属库,利用声纹库达到音频管理、以音找人、综合查询、统计分析等需求。

例如根据涉恐、涉政、吸毒等重点人员的声纹数据,建立相关数据库,集中储存、管理和应用其中的声纹数据。在日常办案过程中、重点区域和重大活动期间核查、采集相关人员信息的过程中,预警发现与数据库声纹信息相匹配的重点人员,进行事前预防。助力公安有效遏制与打击犯罪,降低犯罪率,维护社会安全稳定。

应用于日常治安防控工作

治安风险防控中,综合分析声纹信息,关注比对发现声音特征与数据库存储的声纹信息发现潜在的案件嫌疑人,从而预防和及时处置。

例如,在街面巡逻工作中,通过便携的语音采集识别设备进行身份确认,实现数据收集、声纹串并、声纹比对、声纹管理、综合查询等功能,实现语音数据的比对,确认目标身份,从而实现治安风险识别与实时预警,提升社会治安动态管控能力。

应用于案件侦破工作

声纹识别和语音识别技术可以达到海量筛查的效果,将案件和涉案人员排列组合,通过多种排查方式,串并案件,提高办案效率。

例如,某些案件受案和侦查的初始阶段,公安机关可能仅掌握了一段语音信息作为线索,通过语音识别,提取嫌疑人的语音特征,判断说话人的身份,利用声纹库比对鉴定,对犯罪嫌疑人语音进行分析,刻画犯罪心理画像,提供破案线索。通过分析原始语音资料,确定案件性质为案件侦破提供方向。针对在逃人员可通过动态比对声纹信息库,追踪并关联相关团伙,结合定位系统及时进行报警和反馈,以便实施抓捕。

应用于反电信诈骗案件侦破

电信诈骗犯罪分子主要是通过虚拟空间(如语音通话、短信、互联网等)对受害人实施远程诈骗,造成受害者的财产损失。针对这类案件,声纹识别和语音识别技术可充分发挥其技术优势。通过声纹识别和语音识别技术可以快速了解电信网络诈骗案件的诈骗剧本、被骗过程等案件基本事实,快速区分案件性质、案件类型和具体诈骗手段,及时采取针对性措施开展侦查工作,梳理案件侦破方向、节约案件侦查资源。通过对诈骗分子声纹识别,可以精准定位海量电话数据场景下的诈骗通话,快速发现有害诈骗信息。

例如,结合声纹识别、声纹聚类技术,利用采集标注的诈骗人有害话音集合,提取并存储此类人员的声纹特征,建立声纹库,新的通话接入时,经过声纹提取及声纹比对,可以实现目标通话中诈骗声纹的检出和发现。通过诈骗通话意图理解进行诈骗电话的精准分析,通过诈骗人声纹识别可以有效锁定诈骗人员[17],通过对涉案的电信诈骗语音进行相似性对比,串并案件及时确定犯罪嫌疑人身份及犯罪团伙规模,为挽回受害者损失提供机会,为侦查破案提供线索、为案件诉讼提供证据。

应用于案件证据证明

2012年修订的《刑事诉讼法》将“视听资料、电子数据”规定为八种法定证据形式之一。语音材料属于“视听资料”,声纹鉴定则属于“鉴定意见”,明确了其具有证据效力。

语音识别和语音材料的司法鉴定可应用在:绑架案、敲诈案,告陷害、威胁恐吓、诽谤谩骂骚扰他人的案件;贪污、行贿、受贿等经济交往中的钱物、财产纠纷案;以及谎报火警、匪警等恶意扰乱机关办公秩序的案件等。在上述类型案件中,声纹可从整体上对声音进行固定和再现,以准确、客观、公正地恢复原始声音的真实情况,形象生动、直观全面地反映出案件事实,可称其为“会说话的证据”。

应用于讯(询)问中

在讯(询)问中运用声纹识别和语音识别技术,结合视频监控技术,实时采集被讯(询)问人的声音数据、影像数据,使被讯(询)问人语言及情感更加的数据化、直观化、客观化,结合其语音、微表情、肢体动作等其他生理特征,交叉融合心理学、语言学等多门学科,分析被讯问人感情变化,及时掌握被讯问人的心理活动和情感走向,抓住其供述的薄弱点和漏洞,及时调整讯问方向,识破谎言进行突破从而更好获得线索和证据。

结论

智慧警务模式就是要充分发挥机器智能的基础作用,由人海战术转向人机智能交互。声纹和语音识别技术在智慧警务建设应用中具有特殊的价值。本文通过调研总结声纹和语音识别技术,分析公安实战中声纹和语音识别的技术要素,探究声纹和语音识别技术结合公安大数据在公安业务的应用场景、应用策略、以及应用前景。为了进一步实现声纹和语音技术在公安实战中的落地应用,建议通过建立全国或全省声纹数据库、将声纹信息系统与身份证系统及人脸识别系统等相结合的方式以期能够支撑服务公安大数据战略的落地实施,助推公安工作的质量变革、效率变革、动力变革。

参考文献

[1]张毅,黎小松,罗元,等.基于人耳听觉特性的语音识别预处理研究[J]计算机仿真, 2015,32(12):322-3

[2]Sun C,Yang Y,Wen C,et al.Voiceprint identific ation for limited dataset using the deep migrationhybrid model based on transfer learning[J] Sensors ,2018, 18(7):2399.

[3]Wu Z,Shen C,Van Den Hengel A.Wider or deeper:Revisiting the resnet model for visual recognition[J]. Pattern Recognition,2019,90:119-133.

[4]董莺艳.基于深度学习的声纹识别方法研究[D]重庆理工大学, 2019.

[5]G. E .Hinton,R.R. Salakhutdinov. Reducing the dimensionality of data with neural network[J] Science ,2006,313(5786):504-507.

[6]梁瑞宇,赵力,陶华伟,等.仿选择性注意机制的语音情感识别算法[J]声学学报, 2016,41(4):537-544.

[7]孟君,杨大利说话人辨认中通用背景模型训练时长研究[J].北京信息科技大学学报(自然科学版) , 2013,28(03):87-91.

[8]杨海,张翔,梁春燕,等.联合因子分析和系数表示在稳健性说话人确立中的应用[J].声学学报, 2012,37(5):548-552.

[9]刘红星,刘山葆声纹识别和意图理解技术在电信诈骗检测中的应用研究[J].广东通信技术, 2020,40(07):33-39.

[10]郁军海语音合成技术在社会领域及公安工作中的应用[J]广西公安管理干部学院学报, 2001(01):38-39.

[1]张慧嫦,李勃卡基于信令的电话诈骗行为检测及防范研究[J].广东通信术, 2016,36(10):6-9+45.

[12]骆健儿.智慧警务中公安情报融合方法设计与实现[D].湘潭大学, 2019.

[13]X. Gonzalvo,S.Tazari,C.-a.Chan,M. Becker,A. Gutkin,and H.Silen.Recent advances in google real-timehm m-driven unit selection synthesizer[C]/Inprocinterspeech,2016.

[14]Zen.H,Y.Agiomyrgiannakis,N.Egberts, F.Henderson, and P. Szczepaniak. Fast,compact, and high qualitylstm-rnn based statistical parametric speech synthesiz-ers for mobile devices[]/in proc interspeech,2016.

[15]张小峰,谢钧,罗健欣,俞璐深度学习语音合成技术研究[J].计算机时代, 2020(09):24-28.

[16]李舟军,李水华基于Web的问答系统综述[J]计算机科学, 2017 ,44(6):1-7,42.

[17]胡向阳,刘祥伟,彭魏电信诈骗犯罪防控对策研究[J]中国人民公安大学学报(社会科学版) , 2010(5):90-98.

四、网络安全领域对音频安全的研究

音频安全是指保护音频内容不被非法窃听、篡改或泄露的技术和措施。

网络安全领域对音频安全的研究有以下几个方面:

  • 音频加密:使用密码学方法对音频数据进行加密,使得只有拥有正确密钥的人才能解密和播放音频。例如,舒尔公司开发了一种基于AES-256算法的音频加密技术,可以保护会议内容不被非授权设备收听。音频安全最佳实践-Shure中国
  • 音频内容识别:使用人工智能技术对音频数据进行分析,识别出其中是否包含涉黄、涉恐、涉政、谩骂、低俗等违规内容,以及自定义的黑名单热词。例如,腾讯云提供了一款音频内容安全服务,可以通过API获取检测结果和置信度。腾讯云音频内容安全 & 补充
  • 音频水印:在音频数据中嵌入不可察觉的标识信息,用于追踪音频的来源、版权和传播路径。例如,百度云提供了一款基于数字指纹技术的音频水印服务,可以实现高效率、高鲁棒性和高容量的水印嵌入和提取。音频水印

这些研究都是为了提高音频安全性和可信度,防止信息泄露和滥用。

五、Q&A

Q1. 在禁毒行动中,如何避免毒贩使用音频安全漏洞,规避检查?

在禁毒行动中,要避免毒贩使用音频安全漏洞,规避检查,需要采取以下措施:

这些措施都是为了保障禁毒工作的有效性和安全性,打击毒品犯罪活动。

Q2. 关于上述措施的案例有哪些?

以下是一些涉及音频安全的禁毒案例:

这些案例都说明了音频安全在禁毒工作中的重要性和紧迫性。

Q3. 深度学习在音频安全性方面的应用和挑战有什么?

深度学习在音频安全性方面有很多应用和挑战。例如:

  • 深度学习可以用来对音频进行分类、识别、合成、增强等任务,提高音频质量和可用性。
  • 深度学习也可以用来生成对抗性音频,即恶意制作的音频,用来欺骗或攻击目标系统,如语音识别或语音助手。
  • 音频安全性需要考虑多种因素,如数据隐私、版权保护、声纹认证、噪声干扰等。

相关链接:【1】【2】【3】

Q4. 关于对抗性音频?

对抗性音频是指:

  • 一种利用深度学习技术生成的音频,可以在人耳听不出区别的情况下,改变目标系统的识别结果或行为。
  • 一种针对端到端语音系统(如语音识别、语音合成、语音转换等)的攻击方式,可以绕过传统的信号处理防御方法。
  • 一种需要考虑多种因素(如声学特征、语义内容、背景噪声等)来设计和评估的复杂问题。

相关链接: 【1】【2】【3】

生成对抗性音频的常见方法有:

  • 使用Griffin-Lim算法,将修改后的频谱图转换为音频,从而改变声音事件分类的结果。
  • 使用粒子群优化,寻找最优的对抗扰动,从而欺骗端到端语音系统的输出。
  • 使用生成对抗网络 & 补充,训练一个生成器来产生高保真度和高自然度的音频。

相关链接:【1】【2】

防御对抗性音频的常见方法有:

  • 使用视频压缩或音频压缩,降低对抗扰动的影响,从而提高识别准确率。
  • 使用不一致推导,衡量预测类别相同的实际输入和合成数据之间的激活幅度分布不一致性指标,从而检测音频中的物理对抗性攻击。
  • 使用其他防御技术,如特征提取、信号处理、随机化等,增强端到端语音系统的鲁棒性。

和深度学习相关的方法有:

  • 使用对抗训练,在训练过程中加入对抗样本,从而提高模型的鲁棒性。
  • 使用梯度掩码,在模型中增加随机噪声或非线性变换,从而降低梯度信息的可用性。
  • 使用特征提取 & 补充,在模型中使用预训练的特征提取器或自编码器,从而减少对抗扰动对特征表示的影响。

Q5. 梯度掩码?

使用梯度掩码防御对抗性音频的方法是指在模型中增加随机噪声或非线性变换,从而降低梯度信息的可用性,使得基于梯度的对抗攻击难以生成有效的对抗样本。一些常见的梯度掩码方法有:

  • 使用Fooling梯度法,相对于输入数据而不是模型参数计算梯度,然后迭代修改输入数据,使得网络的预测与目标标签不一致。
  • 使用随机化,向原始模型引入随机层或者随机变量,使模型具有一定随机性,提高模型的鲁棒性和噪声容忍度。
  • 使用去噪,在输入模型进行判定之前,先对当前对抗样本进行去噪,剔除其中造成扰动的信息。

Q6. 防御对抗性音频的意义?

防御对抗性音频是一种用于保护语音系统免受恶意制作的音频攻击的技术。【1】【2】

对抗性音频攻击是一种利用对抗样本来欺骗或干扰语音识别、语音合成、语音转换等基于深度学习的语音系统的行为的攻击【1】【2】

防御对抗性音频的方法有多种,例如通过视频压缩、音频压缩、重采样、降噪等来减少对抗样本的影响。【2】【3】

防御对抗性音频的意义是为了保护语音系统的安全和可靠性,防止被恶意攻击者利用对抗样本来干扰或欺骗系统的正常功能。【1】【2】例如,对抗性音频攻击可能会导致语音识别系统误识别用户的指令,或者语音合成系统产生错误的语音输出。【1】【2】

防御对抗性音频也有助于提高语音系统的鲁棒性和泛化能力,使其能够适应不同的环境和噪声条件。【3】

防御对抗性音频的难点有以下几个方面:

  • 对抗性音频攻击的多样性和复杂性。不同的攻击者可能使用不同的攻击方法、目标和约束来生成对抗样本,导致防御方法难以适应所有情况。【1】【2】
  • 对抗性音频攻击的隐蔽性和可感知性。对抗样本通常是在原始音频上添加微小的扰动,使得人耳难以察觉,但却能够影响语音系统的判断。【1】【2】
  • 对抗性音频攻击的传播性和鲁棒性。对抗样本可能会在不同的设备、环境、噪声等条件下保持其有效性,使得防御方法难以消除其影响。【1】【2】
  • 对抗训练和知识蒸馏等防御方法的计算开销和效率问题。这些方法需要在大量的数据集上进行训练或优化,消耗大量的时间和资源,而且可能会降低语音系统的准确率或质量。【3】

Q7. 对抗性音频攻击的例子有什么?

对抗性音频攻击的例子有很多,这里给你介绍几个:

  • SirenAttack:这是一种针对端到端语音系统的攻击,可以产生对抗性音频,使得目标系统执行错误的操作或输出错误的结果。例如,可以让语音助手打开相机或拨打电话,或者让语音合成系统说出不同于原始文本的内容。

  • 声音事件分类中的对抗性攻击:这是一种针对声音事件分类模型的攻击,可以在原始声音上添加微小的扰动,使得模型误识别声音事件的类别。例如,可以让模型将狗叫声识别为汽车喇叭声或飞机起飞声。

  • 视频领域以及音频领域的对抗样本攻击:这是一种针对视频动作识别模型和语音情感识别模型的攻击,可以在视频帧或语音信号上添加噪声或扭曲,使得模型误判视频动作或语音情感。例如,可以让模型将跳舞动作识别为打架动作或将高兴的语气识别为悲伤的语气。

  • 针对语音识别系统的对抗性音频攻击:这是一种针对语音识别系统的攻击,可以在原始语音上添加人耳难以察觉的扰动,使得系统输出错误的文本。例如,可以让系统将“hello world”识别为“goodbye world”或者将“turn on the light”识别为“turn off the light”。

  • 针对语音唤醒系统的对抗性音频攻击:这是一种针对语音唤醒系统的攻击,可以在环境噪声中隐藏特定的信号,使得系统被错误地唤醒或者无法被唤醒。例如,可以让系统在没有说出“Hey Siri”或者“OK Google”的情况下被唤醒,或者在说出这些短语时无法被唤醒。

  • 针对语音转换和语音克隆系统的对抗性音频攻击:这是一种针对语音转换和语音克隆系统的攻击,可以在原始语音上添加扰动或修改参数,使得系统输出错误或不自然的声音。例如,可以让系统将男声转换为女声或者将某个人的声音克隆为另一个人的声音。

相关链接:【1】【2】【3】

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值