学习笔记:The Audio Auditor: Participant-Level Membership Inference in Internet of Things Voice Services
作者:Yuantian Miao, Ben Zi Hao Zhao, Minhui Xue, Chao Chen, Lei Pan, Jun Zhang, Dali Kaafar, Yang Xiang
论文链接:https://arxiv.org/abs/1905.07082
文章概述
本文主要是设计了一个语音审计模型,用来检测用户的语音数据在不在训练集中,以此来判断他们的数据有没有被无许可使用。
1. 背景知识
ASR( Automatic speech recognition)
该技术被广泛应用于IoTa设备中,与此同时,ASR的隐私问题和语音的未经许可使用成为了用户关心的问题。目前,这一问题并没有被有效的解决,因此,审计用户语音数据在ASR中的使用就很有必要。
成员推理攻击
- 通过训练攻击模型来确定某个数据是否在训练集中。
- 本文中使用这一推理攻击,但有所变化,不着重于具体记录的层次,而是关注参与者层次的推理,这就意味着,推理某个参与者是不是不是自愿将个人训练集参加训练的。
2. 审计ASR模型
2.1 Problem Definition
- U t a r U_{tar} Utar:用户集合
- D t a r D_{tar} Dtar:一组语音记录
- f t a r f_{tar} ftar:语音识别模型,在训练集 D t a r D_{tar} Dtar上使用学习算法 A l t a r Al_{tar} Altar训练
- D r e f D_{ref} Dref:对照数据集,用于训练多个shadow models f s h d f_{shd} fshd
- f s h d f_{shd} fshd:模拟目标模型 f t a r f_{tar} ftar
- U r e f U_{ref} Uref:在训练集 D r e f D_{ref} Dref中的所有用户集合
对于一个特定的用户 u u u,我们的目标是找到这个用户是否在目标模型的训练集中,即判断是否为 u ∈ U t a r u\in U_{tar} u∈Utar
针对 f t a r f_{tar} ftar的参与者层次成员推理需要对照数据集 D r e f D_{ref} Dref才能构建语音审计模型
通过询问 f s h d f_{shd} fshd,转录的结果会根据他是否属于 U r e f U_{ref} Uref被正确标记
假设,审计时只能黑盒访问目标模型。即输入语音数据,只能得到文本转录和他的概率作为输出。模型的训练集、训练参数和超参数都是无法获得的。
假设,已知ASR使用的所有学习算法,包括特征抽取、训练算法和解码算法。
2.2 语音审计
- 成员推理是用来分辨模型是用真实训练数据训练的还是其他数据训练的。因此,语音审计可以通过识别用户有没有出现在成员中来实现。
- 语音审计的训练和审计过程见Figure 2
- 目标模型 D t a r D_{tar} Dtar和辅助参照模型 D r e f D_{ref} Dref不相交,即 D t a r ∩ D r e f = ∅ D_{tar}\cap D_{ref}=\emptyset Dtar∩Dref=∅。此外 U t a r U_{tar} Utar和 U r e f U_{ref} Uref不相交,即 U t a r ∩ U r e f = ∅ U_{tar}\cap U_{ref}=\emptyset Utar∩Uref=∅。
- ==关于为什么可以这么做设定?==因为可以语音审计其实是为了不让用户的数据被未授权使用,因此可以找未授权用户的数据作为 D r e f D_{ref} Dref,那么此时 D t a r D_{tar} Dtar和 D r e f D_{ref} Dref不相交。
- 构建多个shadow models来推理目标模型。由于是假设所有的学习算法 A l t a r Al_{tar} Altar都已知,因此,shadow model的学习算法也已知,因为 A l s h d = A l t a r Al_{shd}=Al_{tar} Alshd=Altar。
- 和目标模型不同,我们有所有shadow model的知识。
- 当用户 u u u向模型询问时,如果 u ∈ D s h d i t r a i n u\in D_{shdi}^{train} u∈Dshditrain,标记为“member”,否则,标记为“nonmember”。收集到一定的具有标签的数据,然后用于训练分类器。
- shadow model越多,审计模型就越精确。
3 实验和结果
数据集
- 作为概念证明,目标是构建一个目标模型和两个基于此目标模型的两个shadow model。从TIMIT语音语料库中提取出三个不相交的数据集用于训练模型。
- 在实验中,shadow models训练使用的训练集 D s h d i t r a i n , i = 1 , 2 D_{shdi}^{train}, i=1,2 Dshditrain,i=1,2与 D t a r t r a i n D_{tar}^{train} Dtartrain的分布相同。(使用不同分布的训练集训练是将来要做的工作)
- shadow model的结果将用于训练语音审计模型
目标模型
- 目标模型是语音转文本模型。输入是带有文本信息标签的语音数据,输出是具有最终概率和相应输入帧长的转录语音文本。
- 评估模型性能,使用训练精度和验证精度。
- 从Figure 3到Figure 5可以看出,两个shadow model和目标模型的精度趋势相似,可以表明我们的阴影模型可以成功地模仿目标模型(在相同的音频输入上进行相同的转录),或许能够相同的效果,即语音识别(相同的转录精度,模型之间的输入样本不同)
实验结果
- 从四个角度来评估审计模型的性能。其中包括:准确率、精确率、召回率、F1分数。
- TP:被认为是“member”,实际上也是“member”
- TN:被认为是“nonmember”,实际上也是“nonmember”
- FP:被认为是“member”,但实际上是“nonmember”
- FN:被认为是“nonmember”,但实际上是“member”
- 准确率:被审计模型正确分类的比例
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN - 召回率:真正为“member”的数据被判断正确的概率
P r e c i s i o n = T P T P + F N Precision=\frac{TP}{TP+FN} Precision=TP+FNTP - 精确率:所有被认为是“member”的数据实际是“member”的概率
P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP+FP} Precision=TP+FPTP - F1分数:精确率和召回率的调和平均数
F 1 − s c o r e = 2 × R e c a l l × P r e c i s i o n R e c a l l + P r e c i s i o n F1-score=\frac{2\times Recall\times Precision}{Recall+Precision} F1−score=Recall+Precision2×Recall×Precision - 展示了两种情形下的实验结果,即通过两种情况来测试审计模型的性能:第一种是训练集中的用户数量改变的情况;第二种是用户的语音数据量改变的情况。
用户数量改变产生的影响
-Figure 6描述了当训练集包含不同数量的用户时,审计模型的行为。
- 分别使用25、50、75、100、125和150个用户训练审计模型,这些用户是从两个影子模型的输出中随机抽样的。
- 审计模型的测试集固定在78条测试音频记录上。
- 为了消除试验的特定偏差,我们将每个实验重复10次并取平均值。
- 审计模型对所有指标的表现都相当不错,不同配置下的所有指标都高于或接近85%。
- 当训练集中的用户数量增加时,该模型的性能会更好。
- 当100位用户使用训练集大小时,性能达到了最高分,特别体现在准确性(大约93%)和F1得分(大约95%)方面。
- 当用户数增加到125时,两个指标的结果都略有下降,但在用户数增加到150时又增加了。
- 在所有配置中,审计模型都表现良好。
- 因此,用于训练审计模型的用户越多,可以确定目标模型内用户的身份越准确。
- 使用更多的用户来训练的审计模型的性能问题,是未来要研究的问题。
每个用户的语音数据量改变产生的影响
- 由于是随机选择用户的数据来测试审计模型,同一个用户的语音数据量也会有所不同。
- 本次是为了测试同一用户的不同语音数据量对审计模型性能的影响
- 设定不同测试集中的用户量相同,并且 # { u ∈ U t a r } : # { u ∉ U t a r } = 2 : 1 \#\{u\in U_{tar}\}:\#\{u\notin U_{tar}\}=2:1 #{u∈Utar}:#{u∈/Utar}=2:1,即“是训练集中用户”的数量是“不是训练集中用户”的数量的两倍。
- 测试集为78个用户,用户的语音数据数量从1到8不等。测试100次,取平均值。结果在Figure 7中显示。
- 每个用户用来审计其成员资格时使用的音频越多,音频审计模型的准确性就越高。
- 当用户仅用一种音频审计目标模型时,审计模型的性能相对较低(除了准确性接近50%),其他三个指标的结果约为25%。当音频数达到八时,所有性能结果都超过90%。