由于GitHub项目仅翻译到前5章,我们从第6章开始通过大语言模型翻译,并导出markdown格式。
大模型难免存在错漏,请读者指正。
教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf
11 差分隐私与机器学习
数据分析中最有用的任务之一是机器学习:自动找到一个简单规则以准确预测从未见过的数据的某些未知特征的问题。许多机器学习任务可以在差分隐私的约束下执行。事实上,隐私约束不一定与机器学习的目标相冲突,两者都旨在从数据所来自的分布中提取信息,而不是从单个数据点中提取。在本节中,我们将概述一些关于隐私机器学习的最基本结果,而不试图全面涵盖这个广阔的领域。
机器学习的目标通常与隐私数据分析的目标相似。学习者通常希望学习一些能够解释数据集的简单规则。然而,她希望这个规则具有泛化能力——也就是说,她所学习的规则不仅要能正确描述她手头的数据,还要能够正确描述从同一分布中抽取的新数据。一般来说,这意味着她希望学习一个能够捕捉手头数据集的分布信息的规则,且这种方式不太依赖于任何单个数据点。当然,这正是隐私数据分析的目标——揭示隐私数据集的分布信息,而不泄露数据集中任何单个个体的过多信息。因此,机器学习和隐私数据分析密切相关也就不足为奇了。事实上,正如我们将看到的,我们通常能够以与非隐私机器学习几乎相同的准确性和几乎相同数量的示例来执行隐私机器学习。
让我们首先简要定义机器学习问题。在这里,我们将遵循瓦利安特(Valiant)的PAC(可能近似正确)机器学习模型。设 X = { 0 , 1 } d \mathcal{X} = \{ 0,1{\} }^{d} X={0,1}d为“无标签示例”的域。将每个 x ∈ X x \in \mathcal{X} x∈X视为包含 d d d个布尔属性的向量。我们将认为向量 x ∈ X x \in \mathcal{X} x∈X与标签 y ∈ { 0 , 1 } y \in \{ 0,1\} y∈{0,1}配对。
定义11.1。一个带标签的示例是一个对 ( x , y ) ∈ X × { 0 , 1 } \left( {x,y}\right) \in \mathcal{X} \times \{ 0,1\} (x,y)∈X×{0,1}:一个向量与一个标签配对。
一个学习问题被定义为带标签示例上的一个分布 D \mathcal{D} D。目标是找到一个函数 f : X → { 0 , 1 } f : \mathcal{X} \rightarrow \{ 0,1\} f:X→{0,1},它能正确标记从该分布中抽取的几乎所有示例。
定义11.2。给定一个函数 f : X → { 0 , 1 } f : \mathcal{X} \rightarrow \{ 0,1\} f:X→{0,1}和带标签示例上的一个分布 D \mathcal{D} D, f f f在 D \mathcal{D} D上的错误率为:
err ( f , D ) = Pr ( x , y ) ∼ D [ f ( x ) ≠ y ] \operatorname{err}\left( {f,\mathcal{D}}\right) = \mathop{\Pr }\limits_{{\left( {x,y}\right) \sim \mathcal{D}}}\left\lbrack {f\left( x\right) \neq y}\right\rbrack err(f,D)=(x,y)∼DPr[f(x)=y]
我们还可以定义 f f f在有限样本 D D D上的错误率:
err ( f , D ) = 1 ∣ D ∣ ∣ { ( x , y ) ∈ D : f ( x ) ≠ y } ∣ . \operatorname{err}\left( {f,D}\right) = \frac{1}{\left| D\right| }\left| {\{ \left( {x,y}\right) \in D : f\left( x\right) \neq y\} }\right| . err(f,D)=∣D∣1∣{(x,y)∈D:f(x)=y}∣.
学习算法可以观察从 D \mathcal{D} D中抽取的一些带标签的示例,其目标是找到一个函数 f f f,使其在 D \mathcal{D} D上测量时的错误率尽可能小。衡量学习算法质量的两个参数是其运行时间,以及为了找到一个好的假设它需要观察的示例数量。
定义11.3。如果对于每个 α , β > 0 \alpha ,\beta > 0 α,β>0,都存在一个 m = poly ( d , 1 / α , log ( 1 / β ) ) m = \operatorname{poly}\left( {d,1/\alpha ,\log \left( {1/\beta }\right) }\right) m=poly(d,1/α,log(1/β)),使得对于带标签示例上的每个分布 D \mathcal{D} D,算法 A A A将从 D \mathcal{D} D中抽取的 m m m个带标签示例作为输入,并输出一个假设 f ∈ C f \in C f∈C,使得以概率 1 − β 1 - \beta 1−β:
err ( f , D ) ≤ min f ∗ ∈ C err ( f ∗ , D ) + α \operatorname{err}\left( {f,\mathcal{D}}\right) \leq \mathop{\min }\limits_{{{f}^{ * } \in C}}\operatorname{err}\left( {{f}^{ * },\mathcal{D}}\right) + \alpha err(f,D)≤f∗∈Cminerr(f∗,D)+α
如果 min f ∗ ∈ C err ( f ∗ , D ) = 0 \mathop{\min }\limits_{{{f}^{ * } \in C}}\operatorname{err}\left( {{f}^{ * },\mathcal{D}}\right) = 0 f∗∈Cminerr(f∗,D)=0,则称学习者在可实现的设定下运行(即,该类中存在某个函数可以完美地为数据打标签)。否则,称学习者在不可知设定下运行。如果 A A A的运行时间也是关于 d , 1 / α d,1/\alpha d,1/α和 log ( 1 / β ) \log \left( {1/\beta }\right) log(1/β)的多项式,则称该学习者是高效的。如果存在一个算法可以PAC学习 C C C,则称 C C C是PAC可学习的。
上述学习定义允许学习者直接访问带标签的示例。有时考虑这样的学习模型也很有用,即算法只能通过神谕(oracle)访问关于 D \mathcal{D} D的一些含噪信息。
定义11.4。统计查询是某个函数 ϕ : X × { 0 , 1 } → \phi : \mathcal{X} \times \{ 0,1\} \rightarrow ϕ:X×{0,1}→ [ 0 , 1 ] \left\lbrack {0,1}\right\rbrack [0,1]。对于带标签示例分布 D \mathcal{D} D,容差为 τ \tau τ的统计查询神谕是一个神谕 O D τ {\mathcal{O}}_{\mathcal{D}}^{\tau } ODτ,使得对于每个统计查询 ϕ \phi ϕ:
∣ O D τ ( ϕ ) − E ( x , y ) ∼ D [ ϕ ( x , y ) ] ∣ ≤ τ \left| {{\mathcal{O}}_{\mathcal{D}}^{\tau }\left( \phi \right) - {\mathbb{E}}_{\left( {x,y}\right) \sim \mathcal{D}}\left\lbrack {\phi \left( {x,y}\right) }\right\rbrack }\right| \leq \tau ODτ(ϕ)−E(x,y)∼D[ϕ(x,y)] ≤τ
换句话说,一个统计查询(SQ)神谕将统计查询 ϕ \phi ϕ作为输入,并输出一个值,该值保证在从 D \mathcal{D} D中抽取的示例上 ϕ \phi ϕ的期望值的 ± τ \pm \tau ±τ范围内。
统计查询学习模型是为了对存在噪声情况下的学习问题进行建模而引入的。
定义11.5。如果对于每个 α , β > 0 \alpha ,\beta > 0 α,β>0,都存在一个 m = poly ( d , 1 / α , log ( 1 / β ) ) m = \operatorname{poly}\left( {d,1/\alpha ,\log \left( {1/\beta }\right) }\right) m=poly(d,1/α,log(1/β)),使得算法 A A A最多向 O D τ {\mathcal{O}}_{\mathcal{D}}^{\tau } ODτ进行 m m m次容差为 τ = 1 / m \tau = 1/m τ=1/m的查询,并且以概率 1 − β 1 - \beta 1−β输出一个假设 f ∈ C f \in C f∈C,使得:
err ( f , D ) ≤ min f ∗ ∈ C err ( f ∗ , D ) + α \operatorname{err}\left( {f,\mathcal{D}}\right) \leq \mathop{\min }\limits_{{{f}^{ * } \in C}}\operatorname{err}\left( {{f}^{ * },\mathcal{D}}\right) + \alpha err(f,D)≤f∗∈Cminerr(f∗,D)+α
请注意,除了通过统计查询(SQ)神谕之外,SQ学习算法无法访问 D \mathcal{D} D。与PAC学习一样,我们可以讨论SQ学习算法是在可实现设定还是不可知设定下运行,以及该学习算法的计算效率。如果存在一个SQ学习算法可以学习类 C C C,则称类 C C C是SQ可学习的。
11.1 差分隐私机器学习的样本复杂度
关于隐私与学习之间的关系,人们可能提出的第一个问题或许是“何时可以以隐私保护的方式进行机器学习?” 换句话说,你可能会寻求一种概率近似正确(PAC)学习算法,该算法将数据集(隐式假设是从某个分布 D \mathcal{D} D中采样得到的)作为输入,然后以隐私保护的方式输出一个假设 f f f,该假设在该分布上大概率具有较低的误差。一个更细致的问题可能是“与在没有差分隐私约束的情况下进行学习所需的样本数量相比,以隐私保护的方式进行学习需要额外多少样本?” 类似地,“与非隐私保护学习所需的运行时间相比,以隐私保护的方式进行学习需要额外多少运行时间?” 我们在此将简要概述关于 ( ε , 0 ) \left( {\varepsilon ,0}\right) (ε,0)-差分隐私的已知结果。一般来说,使用高级组合定理可以得到关于 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ)-差分隐私的更好结果。
隐私机器学习中的一个基础信息论结果是,即使在不可知设置下,当且仅当非隐私的概率近似正确(PAC)学习可以用多项式数量的样本实现时,隐私的PAC学习才可以用多项式数量的样本实现。事实上,所需样本复杂度的增加相对较小 —— 然而,这个结果并不能保证计算效率。一种实现方法是直接通过指数机制。我们可以用一个范围 R = C R = C R=C来实例化指数机制,该范围等于要学习的查询类。给定一个数据库 D D D,我们可以使用质量得分 q ( f , D ) = − 1 ∣ D ∣ ∣ { ( x , y ) ∈ D : f ( x ) ≠ y } ∣ q\left( {f,D}\right) = - \frac{1}{\left| D\right| }\left| {\{ \left( {x,y}\right) \in D : f\left( x\right) \neq y\} }\right| q(f,D)=−∣D∣1∣{(x,y)∈D:f(x)=y}∣:即,我们试图最小化隐私数据集中错误分类示例的比例。这显然是隐私数据的一个 1 / n 1/n 1/n敏感函数,因此根据指数机制的效用定理,以概率 1 − β 1 - \beta 1−β,该机制会返回一个函数 f ∈ C f \in C f∈C,该函数能正确标记数据库中最优(OPT) − 2 ( log ∣ C ∣ + log 1 β ) ε n - \frac{2\left( {\log \left| C\right| + \log \frac{1}{\beta }}\right) }{\varepsilon n} −εn2(log∣C∣+logβ1)比例的点。然而,请回想一下,在学习场景中,我们将数据库 D D D视为由从某个带标签示例分布 D \mathcal{D} D中独立同分布(i.i.d.)抽取的 n n n个样本组成。回顾引理4.3中关于采样界限的讨论。切尔诺夫界(Chernoff bound)与联合界(union bound)相结合告诉我们,大概率地,如果 D D D由从 D \mathcal{D} D中独立同分布抽取的 n n n个样本组成,那么对于所有 f ∈ C : ∣ err ( f , D ) − err ( f , D ) ∣ ≤ O ( log ∣ C ∣ n ) f \in C : \left| {\operatorname{err}\left( {f,D}\right) - \operatorname{err}\left( {f,\mathcal{D}}\right) }\right| \leq O\left( \sqrt{\frac{\log \left| C\right| }{n}}\right) f∈C:∣err(f,D)−err(f,D)∣≤O(nlog∣C∣)。因此,如果我们希望找到一个假设,其在分布 D \mathcal{D} D上的误差在最优误差的 α \alpha α范围内,那么抽取一个由 n ≥ log ∣ C ∣ / α 2 n \geq \log \left| C\right| /{\alpha }^{2} n≥log∣C∣/α2个样本组成的数据库 D D D,并在 D D D上学习最佳分类器 f ∗ {f}^{ * } f∗就足够了。
现在考虑使用上述指数机制进行隐私的概率近似正确(PAC)学习的问题。回想一下,根据定理3.11,指数机制返回一个效用得分比最优 f ∗ {f}^{ * } f∗的效用得分差超过一个加性因子 O ( ( Δ u / ε ) log ∣ C ∣ ) O\left( {\left( {{\Delta u}/\varepsilon }\right) \log \left| C\right| }\right) O((Δu/ε)log∣C∣)的函数 f f f的可能性非常小,在这种情况下,效用函数的敏感度 Δ u {\Delta u} Δu为 1 / n 1/n 1/n。也就是说,大概率地,指数机制将返回一个函数 f ∈ C f \in C f∈C,使得:
err ( f , D ) ≤ min f ∗ ∈ C err ( f ∗ , D ) + O ( ( log ∣ C ∣ ) ε n ) \operatorname{err}\left( {f,D}\right) \leq \mathop{\min }\limits_{{{f}^{ * } \in C}}\operatorname{err}\left( {{f}^{ * },D}\right) + O\left( \frac{\left( \log \left| C\right| \right) }{\varepsilon n}\right) err(f,D)≤f∗∈Cminerr(f∗,D)+O(εn(log∣C∣))
≤ min f ∗ ∈ C err ( f ∗ , D ) + O ( log ∣ C ∣ n ) + O ( ( log ∣ C ∣ ) ε n ) . \leq \mathop{\min }\limits_{{{f}^{ * } \in C}}\operatorname{err}\left( {{f}^{ * },\mathcal{D}}\right) + O\left( \sqrt{\frac{\log \left| C\right| }{n}}\right) + O\left( \frac{\left( \log \left| C\right| \right) }{\varepsilon n}\right) . ≤f∗∈Cminerr(f∗,D)+O(nlog∣C∣)+O(εn(log∣C∣)).
因此,如果我们希望找到一个假设,其在分布 D \mathcal{D} D上的误差在最优误差的 α \alpha α范围内,那么抽取一个由以下数量样本组成的数据库 D D D就足够了:
n ≥ O ( max ( log ∣ C ∣ ε α , log ∣ C ∣ α 2 ) ) , n \geq O\left( {\max \left( {\frac{\log \left| C\right| }{\varepsilon \alpha },\frac{\log \left| C\right| }{{\alpha }^{2}}}\right) }\right) , n≥O(max(εαlog∣C∣,α2log∣C∣)),
当 ε ≥ α \varepsilon \geq \alpha ε≥α时,这在渐近意义上并不比非隐私学习所需的数据库规模更大。
这个简单计算 1 {}^{1} 1的一个推论是(忽略计算效率),一类函数 C C C是概率近似正确(PAC,Probably Approximately Correct)可学习的,当且仅当它是隐私概率近似正确可学习的。
对于一个 S Q \mathrm{{SQ}} SQ可学习的概念类 C C C,我们能得出更强的结论吗?观察可知,如果 C C C是高效统计查询(SQ,Statistical Query)可学习的,那么 C C C的学习算法只需通过一个统计查询预言机来访问数据,而统计查询预言机非常适合差分隐私:注意,统计查询预言机回答的是基于谓词 ϕ ( x , y ) ∈ [ 0 , 1 ] \phi \left( {x,y}\right) \in \left\lbrack {0,1}\right\rbrack ϕ(x,y)∈[0,1]定义的期望查询 E ( x , y ) ∼ D [ ϕ ( x , y ) ] {\mathbb{E}}_{\left( {x,y}\right) \sim \mathcal{D}}\left\lbrack {\phi \left( {x,y}\right) }\right\rbrack E(x,y)∼D[ϕ(x,y)],当在数据库 D D D(它是来自 D \mathcal{D} D的大小为 n n n的样本)上进行估计时,该查询的敏感度仅为 1 / n 1/n 1/n。此外,学习算法不需要精确地接收答案,而是可以使用任何满足以下性质的答案 a a a来运行: ∣ E ( x , y ) ∼ D [ ϕ ( x , y ) ] − a ∣ ≤ τ \left| {{\mathbb{E}}_{\left( {x,y}\right) \sim \mathcal{D}}\left\lbrack {\phi \left( {x,y}\right) }\right\rbrack - a}\right| \leq \tau E(x,y)∼D[ϕ(x,y)]−a ≤τ,也就是说,该算法可以使用低敏感度查询的含噪答案来运行。这样做的好处是,我们可以使用拉普拉斯机制高效地在计算上回答此类查询,但代价是可能需要较大的样本规模。回顾一下,拉普拉斯机制可以以 ( ε , 0 ) \left( {\varepsilon ,0}\right) (ε,0) - 差分隐私回答 m 1 / n {m1}/n m1/n敏感查询,并且期望最坏情况误差为 α = O ( m log m ε n ) \alpha = O\left( \frac{m\log m}{\varepsilon n}\right) α=O(εnmlogm)。因此,一个需要以精度 α \alpha α回答 m m m个查询的 S Q {SQ} SQ学习算法可以使用样本规模为 n = O ( max ( m log m ε α , log m α 2 ) ) n = O\left( {\max \left( {\frac{m\log m}{\varepsilon \alpha },\frac{\log m}{{\alpha }^{2}}}\right) }\right) n=O(max(εαmlogm,α2logm))的样本运行。让我们将其与非隐私 S Q {SQ} SQ学习者所需的样本规模进行比较。如果 S Q {SQ} SQ学习者需要以容差 α \alpha α进行 m m m个查询,那么根据切尔诺夫界和联合界,样本规模为 O ( log m / α 2 ) O\left( {\log m/{\alpha }^{2}}\right) O(logm/α2)就足够了。注意,对于 ε = O ( 1 ) \varepsilon = O\left( 1\right) ε=O(1)和误差 α = O ( 1 ) \alpha = O\left( 1\right) α=O(1),非隐私算法可能需要的样本数量呈指数级减少。然而,在统计查询学习定义所允许的误差容差 α ≤ 1 / m \alpha \leq 1/m α≤1/m下,对于 ϵ = Θ ( 1 ) \epsilon = \Theta \left( 1\right) ϵ=Θ(1),隐私统计查询学习的样本复杂度并不比非隐私统计查询学习的样本复杂度差。
其结果是,从信息论的角度来看,隐私对机器学习几乎没有阻碍。此外,对于任何仅通过统计查询预言机访问数据的算法,通过拉普拉斯机制可以立即实现向隐私学习的转化,并且还能保持计算效率!
1 {}^{1} 1再结合相应的下界,这些下界表明对于一般的 C C C,不可能使用具有 o ( log ∣ C ∣ / α 2 ) o\left( {\log \left| C\right| /{\alpha }^{2}}\right) o(log∣C∣/α2)个点的样本进行非隐私的概率近似正确学习。
2 {}^{2} 2事实上,已知的几乎每一类(奇偶校验函数是唯一的例外)概率近似正确可学习的函数也都可以仅使用统计查询预言机进行学习。
11.2 差分隐私在线学习
在本节中,我们考虑一个稍有不同的学习问题,即从专家建议中学习的问题。这个问题似乎与我们在上一节讨论的分类问题有所不同,但实际上,这里介绍的简单算法用途极为广泛,除了分类任务之外,还可用于执行许多其他任务,不过我们在此不做讨论。
想象一下,你正在对赛马进行下注,但不幸的是,你对马匹一无所知!不过,你可以获取一些 k k k 位专家的意见,他们每天都会预测哪匹马会获胜。每天你可以选择一位专家并听从其建议,而且每天在你下注之后,你会得知哪匹马实际上赢得了比赛。你应该如何决定每天听从哪位专家的建议,又该如何评估自己的表现呢?专家并非完美无缺(事实上,他们可能根本就不擅长预测!),因此,期望你一直甚至大部分时间都做出正确的下注是不合理的,如果没有一位专家能做到这一点的话。然而,你可能有一个更温和的目标:从事后看来,你能否以一种方式对马匹下注,使得你的表现几乎和最佳专家一样好呢?
形式上,一个在线学习算法 A A A 在以下环境中运行:
- 每天 t = 1 , … , T t = 1,\ldots ,T t=1,…,T :
(a) A A A 选择一位专家 a t ∈ { 1 , … , k } {a}_{t} \in \{ 1,\ldots ,k\} at∈{1,…,k}
(b) A A A 观察到每位专家 i ∈ { 1 , … , k } i \in \{ 1,\ldots ,k\} i∈{1,…,k} 的损失 ℓ i t ∈ [ 0 , 1 ] {\ell }_{i}^{t} \in \left\lbrack {0,1}\right\rbrack ℓit∈[0,1] ,并经历损失 ℓ a t t {\ell }_{{a}_{t}}^{t} ℓatt 。
对于一系列损失 ℓ ≤ T ≡ { ℓ t } t = 1 T {\ell }^{ \leq T} \equiv {\left\{ {\ell }^{t}\right\} }_{t = 1}^{T} ℓ≤T≡{ℓt}t=1T ,我们记为:
L i ( ℓ ≤ T ) = 1 T ∑ t = 1 T ℓ i t {L}_{i}\left( {\ell }^{ \leq T}\right) = \frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}{\ell }_{i}^{t} Li(ℓ≤T)=T1t=1∑Tℓit
表示专家 i i i 在所有 T T T 轮中的总平均损失,并记
L A ( ℓ ≤ T ) = 1 T ∑ t = 1 T ℓ a t t {L}_{A}\left( {\ell }^{ \leq T}\right) = \frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}{\ell }_{{a}_{t}}^{t} LA(ℓ≤T)=T1t=1∑Tℓatt
表示该算法的总平均损失。
该算法的遗憾值定义为其实际产生的损失与事后看来最佳专家的损失之间的差值:
Regret ( A , ℓ ≤ T ) = L A ( ℓ ≤ T ) − min i L i ( ℓ ≤ T ) . \operatorname{Regret}\left( {A,{\ell }^{ \leq T}}\right) = {L}_{A}\left( {\ell }^{ \leq T}\right) - \mathop{\min }\limits_{i}{L}_{i}\left( {\ell }^{ \leq T}\right) . Regret(A,ℓ≤T)=LA(ℓ≤T)−iminLi(ℓ≤T).
在线学习的目标是设计这样的算法,保证对于所有可能的损失序列 ℓ ≤ T {\ell }^{ \leq T} ℓ≤T ,即使是对抗性选择的序列,当 T → ∞ T \rightarrow \infty T→∞ 时,遗憾值也保证趋于零。事实上,使用乘法权重算法(也有许多其他名称,例如,随机加权多数算法、Hedge 算法、指数梯度下降算法,其中乘法权重算法最为常用)就可以实现这一点。
注记 11.1. 我们在第 4 节中已经见过这个算法了——这只是乘法权重更新规则的另一种形式!事实上,关于私有乘法权重机制的所有结果都可以直接从我们在定理 11.1 中给出的遗憾界推导出来。
算法 15 乘法权重(或随机加权多数(RWM))算法,版本 1。它以损失流 ℓ 1 , ℓ 2 , … {\ell }^{1},{\ell }^{2},\ldots ℓ1,ℓ2,… 作为输入,并输出动作流 a 1 , a 2 , … {a}_{1},{a}_{2},\ldots a1,a2,… 。它由一个更新参数 η \eta η 进行参数化。
R W M ( η ) \mathbf{{RWM}}\left( \eta \right) RWM(η) :
对于每个 i ∈ { 1 , … , k } i \in \{ 1,\ldots ,k\} i∈{1,…,k} ,令 w i ← 1 {w}_{i} \leftarrow 1 wi←1 。
对于 t = 1 , … t = 1,\ldots t=1,… 执行以下操作
以与 w i {w}_{i} wi 成比例的概率选择动作 a t = i {a}_{t} = i at=i
观察 ℓ t {\ell }^{t} ℓt并对每个 i ∈ [ k ] i \in \left\lbrack k\right\rbrack i∈[k]设置 w i ← w i ⋅ exp ( − η ℓ i t ) {w}_{i} \leftarrow {w}_{i} \cdot \exp \left( {-\eta {\ell }_{i}^{t}}\right) wi←wi⋅exp(−ηℓit)
结束循环
事实证明,这个简单的算法已经有了显著的遗憾界(regret bound)。
定理11.1。对于任意由对手选择的长度为 T , ℓ ≤ T = ( ℓ 1 , … , ℓ T ) T,{\ell }^{ \leq T} = \left( {{\ell }^{1},\ldots ,{\ell }^{T}}\right) T,ℓ≤T=(ℓ1,…,ℓT)的损失序列,更新参数为 η \eta η的随机加权多数算法(Randomized Weighted Majority algorithm)有如下保证:
E [ Regret ( RWM ( η ) , ℓ ≤ T ) ] ≤ η + ln ( k ) η T , (11.1) \mathbb{E}\left\lbrack {\operatorname{Regret}\left( {\operatorname{RWM}\left( \eta \right) ,{\ell }^{ \leq T}}\right) }\right\rbrack \leq \eta + \frac{\ln \left( k\right) }{\eta T}, \tag{11.1} E[Regret(RWM(η),ℓ≤T)]≤η+ηTln(k),(11.1)
其中 k k k是专家的数量。选择 η = ln k T \eta = \sqrt{\frac{\ln k}{T}} η=Tlnk可得:
E [ Regret ( RWM ( η ) , ℓ ≤ T ) ] ≤ 2 ln k T . \mathbb{E}\left\lbrack {\operatorname{Regret}\left( {\operatorname{RWM}\left( \eta \right) ,{\ell }^{ \leq T}}\right) }\right\rbrack \leq 2\sqrt{\frac{\ln k}{T}}. E[Regret(RWM(η),ℓ≤T)]≤2Tlnk.
这个显著的定理表明,即使面对一个由对手选择的损失序列,随机加权多数算法平均而言可以和事后看来 k k k个专家中最好的专家表现一样好,仅减去一个额外的附加项,该项以 O ( ln k T ) O\left( \sqrt{\frac{\ln k}{T}}\right) O(Tlnk)的速率趋近于零。换句话说,在最多 T ≤ 4 ln k α 2 T \leq 4\frac{\ln k}{{\alpha }^{2}} T≤4α2lnk轮之后,随机加权多数算法的遗憾(regret)保证至多为 α \alpha α!此外,这个界是最优的。
我们能否在差分隐私(differential privacy)的约束下实现类似的结果呢?在我们提出这个问题之前,我们必须确定输入数据库是什么,以及我们希望以何种粒度保护隐私?由于输入是损失向量的集合 ℓ ≤ T = ( ℓ 1 , … , ℓ T ) {\ell }^{ \leq T} = \left( {{\ell }^{1},\ldots ,{\ell }^{T}}\right) ℓ≤T=(ℓ1,…,ℓT),很自然地将 ℓ ≤ T {\ell }^{ \leq T} ℓ≤T视为数据库,并将相邻数据库 ℓ ≤ ≤ ^ T \ell \overset{\widehat{ \leq }T}{ \leq } ℓ≤≤ T视为在任何单个时间步的整个损失向量上有所不同的数据库:即,对于某个固定的时间步 t , ℓ ^ i = ℓ i t,{\widehat{\ell }}^{i} = {\ell }^{i} t,ℓ i=ℓi,对于所有 i ≠ t i \neq t i=t,但 ℓ t {\ell }^{t} ℓt和 ℓ ^ t {\widehat{\ell }}^{t} ℓ t可以任意不同。算法的输出是它选择的动作序列 a 1 , … , a T {a}_{1},\ldots ,{a}_{T} a1,…,aT,而我们希望以差分隐私的方式输出这个序列。
我们的第一个观察是,随机加权多数算法在每一天 t t t以一种熟悉的方式选择一个动作!我们在这里以一种等价的方式重新表述该算法:
它以与 exp ( − η ∑ j = 1 t − 1 ℓ i j ) \exp \left( {-\eta \mathop{\sum }\limits_{{j = 1}}^{{t - 1}}{\ell }_{i}^{j}}\right) exp(−ηj=1∑t−1ℓij)成比例的概率选择一个动作 a t {a}_{t} at,这仅仅是质量得分(quality score)为 q ( i , ℓ < T ) = ∑ j = 1 t − 1 ℓ i j q\left( {i,{\ell }^{ < T}}\right) = \mathop{\sum }\limits_{{j = 1}}^{{t - 1}}{\ell }_{i}^{j} q(i,ℓ<T)=j=1∑t−1ℓij、隐私参数为 ε = 2 η \varepsilon = {2\eta } ε=2η的指数机制(exponential mechanism)。注意,因为每个 ℓ i t ∈ [ 0 , 1 ] {\ell }_{i}^{t} \in \left\lbrack {0,1}\right\rbrack ℓit∈[0,1],质量函数的敏感度为1。因此,在每一轮 t t t,随机加权多数算法以一种保留 2 η {2\eta } 2η差分隐私的方式选择一个动作 a t {a}_{t} at,所以为了实现隐私 ε \varepsilon ε,只需设置 η = ε / 2 \eta = \varepsilon /2 η=ε/2。
算法16 乘法权重(或随机加权多数(RWM))算法,重新表述。它将损失流 ℓ 1 , ℓ 2 , … {\ell }^{1},{\ell }^{2},\ldots ℓ1,ℓ2,…作为输入,并输出动作流 a 1 , a 2 , … {a}_{1},{a}_{2},\ldots a1,a2,…。它由一个更新参数 η \eta η参数化。
R W M ( η ) \mathbf{{RWM}}\left( \eta \right) RWM(η) :
对于 t = 1 , … t = 1,\ldots t=1,…执行
以与……成比例的概率选择动作 a t = i {a}_{t} = i at=i
exp ( − η ∑ j = 1 t − 1 ℓ i j ) \exp \left( {-\eta \mathop{\sum }\limits_{{j = 1}}^{{t - 1}}{\ell }_{i}^{j}}\right) exp(−ηj=1∑t−1ℓij)
观察 ℓ t {\ell }^{t} ℓt
结束循环
此外,在算法运行过程中,它将选择一个动作 T T T 次。如果我们希望算法的整个运行过程对于某些 ε \varepsilon ε 和 δ \delta δ 满足 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) -差分隐私,那么我们可以简单地应用我们的组合定理。回想定理3.20,由于总共有 T T T 步,如果算法的每一步对于 ε ′ = ε / 8 T ln ( 1 / δ ) {\varepsilon }^{\prime } = \varepsilon /\sqrt{{8T}\ln \left( {1/\delta }\right) } ε′=ε/8Tln(1/δ) 满足 ( ε ′ , 0 ) \left( {{\varepsilon }^{\prime },0}\right) (ε′,0) -差分隐私,那么整个算法将满足 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) 差分隐私。因此,通过设置 η = ε ′ / 2 \eta = {\varepsilon }^{\prime }/2 η=ε′/2 可以直接得到以下定理:
定理11.2。对于长度为 T T T 的损失序列,带有 η = ε 32 T ln ( 1 / δ ) \eta = \frac{\varepsilon }{\sqrt{{32T}\ln \left( {1/\delta }\right) }} η=32Tln(1/δ)ε 的算法 RWM ( η ) \operatorname{RWM}\left( \eta \right) RWM(η) 满足 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) -差分隐私。
值得注意的是,我们完全没有修改原始的随机加权多数算法就得到了这个定理,而只是通过适当地设置 η \eta η 。从某种意义上说,我们免费获得了隐私性!因此,我们也可以不加修改地使用定理11.1,即随机加权多数(RWM)算法的效用定理:
定理11.3。对于任何由对手选择的长度为 T , ℓ ≤ T = ( ℓ 1 , … , ℓ T ) T,{\ell }^{ \leq T} = \left( {{\ell }^{1},\ldots ,{\ell }^{T}}\right) T,ℓ≤T=(ℓ1,…,ℓT) 的损失序列,更新参数为 η = ε 32 T ln ( 1 / δ ) \eta = \frac{\varepsilon }{\sqrt{{32T}\ln \left( {1/\delta }\right) }} η=32Tln(1/δ)ε 的随机加权多数算法有如下保证:
E [ Regret ( RWM ( η ) , ℓ ≤ T ) ] ≤ ε 32 T ln ( 1 / δ ) + 32 ln ( 1 / δ ) ln k ε T \mathbb{E}\left\lbrack {\operatorname{Regret}\left( {\operatorname{RWM}\left( \eta \right) ,{\ell }^{ \leq T}}\right) }\right\rbrack \leq \frac{\varepsilon }{\sqrt{{32T}\ln \left( {1/\delta }\right) }} + \frac{\sqrt{{32}\ln \left( {1/\delta }\right) }\ln k}{\varepsilon \sqrt{T}} E[Regret(RWM(η),ℓ≤T)]≤32Tln(1/δ)ε+εT32ln(1/δ)lnk
≤ 128 ln ( 1 / δ ) ln k ε T , \leq \frac{\sqrt{{128}\ln \left( {1/\delta }\right) }\ln k}{\varepsilon \sqrt{T}}, ≤εT128ln(1/δ)lnk,
其中 k k k 是专家的数量。
由于每个时间步 t t t 的每轮损失是一个独立选择的随机变量(关于 a t {a}_{t} at 的选择),其取值范围在 [ − 1 , 1 ] \left\lbrack {-1,1}\right\rbrack [−1,1] 内,我们还可以应用切尔诺夫界(Chernoff bound)来获得高概率保证:
定理11.4。对于任何由对手选择的长度为 T , ℓ ≤ T = ( ℓ 1 , … , ℓ T ) T,{\ell }^{ \leq T} = \left( {{\ell }^{1},\ldots ,{\ell }^{T}}\right) T,ℓ≤T=(ℓ1,…,ℓT) 的损失序列,更新参数为 η = ε 32 T ln ( 1 / δ ) \eta = \frac{\varepsilon }{\sqrt{{32T}\ln \left( {1/\delta }\right) }} η=32Tln(1/δ)ε 的随机加权多数算法产生的动作序列满足,至少以 1 − β 1 - \beta 1−β 的概率:
Regret ( RWM ( η ) , ℓ ≤ T ) ≤ 128 ln ( 1 / δ ) ln k ε T + ln k / β T \operatorname{Regret}\left( {\operatorname{RWM}\left( \eta \right) ,{\ell }^{ \leq T}}\right) \leq \frac{\sqrt{{128}\ln \left( {1/\delta }\right) }\ln k}{\varepsilon \sqrt{T}} + \sqrt{\frac{\ln k/\beta }{T}} Regret(RWM(η),ℓ≤T)≤εT128ln(1/δ)lnk+Tlnk/β
= O ( ln ( 1 / δ ) ln ( k / β ) ε T ) . = O\left( \frac{\sqrt{\ln \left( {1/\delta }\right) }\ln \left( {k/\beta }\right) }{\varepsilon \sqrt{T}}\right) . =O(εTln(1/δ)ln(k/β)).
这个界几乎和即使不考虑隐私性时所能达到的最佳界(即随机加权多数算法的界)一样好——遗憾界仅大了一个 Ω ( ln ( k ) ln ( 1 / δ ) ε ) \Omega \left( \frac{\sqrt{\ln \left( k\right) \ln \left( {1/\delta }\right) }}{\varepsilon }\right) Ω(εln(k)ln(1/δ)) 的因子。(我们注意到,通过使用不同的算法并进行更细致的分析,我们可以去掉这个额外的 ln k \sqrt{\ln k} lnk 因子)。由于我们实际上使用的是相同的算法,当然效率也得以保留。这里我们有一个机器学习中的有力例子,其中隐私性几乎是“免费的”。值得注意的是,就像非隐私算法一样,我们的效用界在算法运行时间越长时会变得更好,同时保持隐私保证不变。 3 {}^{3} 3
3 {}^{3} 3 当然,我们必须适当地设置更新参数,就像我们对非隐私算法所做的那样。当轮数 T T T 事先已知时,这很容易做到,但当轮数事先未知时,也可以自适应地完成。
11.3 经验风险最小化
在本节中,我们将上一节讨论的随机加权多数算法应用于经验风险最小化问题的一个特殊情况,以学习一个线性函数。我们不假设采用对抗模型,而是假设示例是从某个已知分布中抽取的,并且我们希望从该分布的有限数量的样本中学习一个分类器,以便在从同一分布中抽取的新样本上我们的损失较低。
假设我们有一个关于示例 x ∈ [ − 1 , 1 ] d x \in {\left\lbrack -1,1\right\rbrack }^{d} x∈[−1,1]d 的分布 D \mathcal{D} D,对于每个这样的向量 x ∈ [ − 1 , 1 ] d x \in {\left\lbrack -1,1\right\rbrack }^{d} x∈[−1,1]d,以及对于每个满足 ∥ θ ∥ 1 = 1 \parallel \theta {\parallel }_{1} = 1 ∥θ∥1=1 的向量 θ ∈ [ 0 , 1 ] d \theta \in {\left\lbrack 0,1\right\rbrack }^{d} θ∈[0,1]d,我们将 θ \theta θ 在示例 x x x 上的损失定义为 Loss ( θ , x ) = ⟨ θ , x ⟩ \operatorname{Loss}\left( {\theta ,x}\right) = \langle \theta ,x\rangle Loss(θ,x)=⟨θ,x⟩。我们希望找到一个向量 θ ∗ {\theta }^{ * } θ∗ 来最小化从 D \mathcal{D} D 中抽取的示例的期望损失:
θ ∗ = arg min θ ∈ [ 0 , 1 ] d : ∥ θ ∥ 1 = 1 E x ∼ D [ ⟨ θ , x ⟩ ] . {\theta }^{ * } = \arg \mathop{\min }\limits_{{\theta \in {\left\lbrack 0,1\right\rbrack }^{d} : \parallel \theta {\parallel }_{1} = 1}}{\mathbb{E}}_{x \sim \mathcal{D}}\left\lbrack {\langle \theta ,x\rangle }\right\rbrack . θ∗=argθ∈[0,1]d:∥θ∥1=1minEx∼D[⟨θ,x⟩].
这个问题可用于对寻找低误差线性分类器的任务进行建模。通常,我们只能通过从 D \mathcal{D} D 中独立同分布抽取的一些示例 S ⊂ [ − 1 , 1 ] d S \subset {\left\lbrack -1,1\right\rbrack }^{d} S⊂[−1,1]d 来了解分布 D \mathcal{D} D,这些示例作为我们学习算法的输入。在这里,我们将这个样本 S S S 视为我们的私有数据库,并将关注我们能够以多高的隐私性来近似 θ ∗ {\theta }^{ * } θ∗ 作为 ∣ S ∣ \left| S\right| ∣S∣ 的函数的误差(学习算法的样本复杂度)。
我们的方法是将该问题简化为借助专家建议进行学习的问题,并应用上一节讨论的随机加权多数算法的隐私版本:
-
专家将是 d d d 个标准基向量 { e 1 , … , e d } \left\{ {{e}_{1},\ldots ,{e}_{d}}\right\} {e1,…,ed},其中 e i = ( 0 , … , 0 , 1 ⏟ i , 0 , … , 0 ) {e}_{i} = \left( {0,\ldots ,0,\underset{i}{\underbrace{1}},0,\ldots ,0}\right) ei=(0,…,0,i 1,0,…,0)。
-
给定一个示例 x ∈ [ − 1 , 1 ] d x \in {\left\lbrack -1,1\right\rbrack }^{d} x∈[−1,1]d,我们通过为每个 i ∈ { 1 , … , d } i \in \{ 1,\ldots ,d\} i∈{1,…,d} 设置 ℓ ( x ) i = ⟨ e i , x ⟩ \ell {\left( x\right) }_{i} = \left\langle {{e}_{i},x}\right\rangle ℓ(x)i=⟨ei,x⟩ 来定义一个损失向量 ℓ ( x ) ∈ \ell \left( x\right) \in ℓ(x)∈ [ − 1 , 1 ] d {\left\lbrack -1,1\right\rbrack }^{d} [−1,1]d。换句话说,我们只需设置 ℓ ( x ) i = x i \ell {\left( x\right) }_{i} = {x}_{i} ℓ(x)i=xi。
-
在时间 t t t,我们通过对 x ∼ D x \sim \mathcal{D} x∼D 进行采样并设置 ℓ t = ℓ ( x ) {\ell }^{t} = \ell \left( x\right) ℓt=ℓ(x) 来选择一个损失函数 ℓ t {\ell }^{t} ℓt。请注意,如果我们有一个来自 D \mathcal{D} D 的大小为 ∣ S ∣ = T \left| S\right| = T ∣S∣=T 的样本 S S S,那么我们可以按照上述方式对损失序列运行随机加权多数(RWM)算法,总共进行 T T T 轮。这将产生一系列输出 a 1 , … , a T {a}_{1},\ldots ,{a}_{T} a1,…,aT,我们将把我们的最终分类器定义为 θ T ≡ 1 T ∑ i = 1 T a i {\theta }^{T} \equiv \frac{1}{T}\mathop{\sum }\limits_{{i = 1}}^{T}{a}_{i} θT≡T1i=1∑Tai。(回想一下,每个 a i {a}_{i} ai 都是一个标准基向量 a i ∈ { e 1 , … , e d } {a}_{i} \in \left\{ {{e}_{1},\ldots ,{e}_{d}}\right\} ai∈{e1,…,ed},因此我们有 ∥ θ T ∥ 1 = 1 {\begin{Vmatrix}{\theta }^{T}\end{Vmatrix}}_{1} = 1 θT 1=1)。
我们在下面总结该算法:
算法17 一种学习线性函数的算法。它以示例的私有数据库 S ⊂ [ − 1 , 1 ] d , S = ( x 1 , … , x T ) S \subset {\left\lbrack -1,1\right\rbrack }^{d},S = \left( {{x}_{1},\ldots ,{x}_{T}}\right) S⊂[−1,1]d,S=(x1,…,xT)以及隐私参数 ε \varepsilon ε和 δ \delta δ作为输入。
线性学习器 ( S , ε , δ ) \left( {S,\varepsilon ,\delta }\right) (S,ε,δ):
令 η ← ε 32 T ln ( 1 / δ ) \eta \leftarrow \frac{\varepsilon }{\sqrt{{32T}\ln \left( {1/\delta }\right) }} η←32Tln(1/δ)ε
对于从 t = 1 t = 1 t=1到 T = ∣ S ∣ T = \left| S\right| T=∣S∣执行以下操作
以与……成比例的概率选择向量 a t = e i {a}_{t} = {e}_{i} at=ei
exp ( − η ∑ j = 1 t − 1 ℓ i j ) \exp \left( {-\eta \mathop{\sum }\limits_{{j = 1}}^{{t - 1}}{\ell }_{i}^{j}}\right) exp(−ηj=1∑t−1ℓij)
令损失向量为 ℓ t = ( ⟨ e 1 , x t ⟩ , ⟨ e 2 , x t ⟩ , … , ⟨ e d , x t ⟩ ) {\ell }^{t} = \left( {\left\langle {{e}_{1},{x}_{t}}\right\rangle ,\left\langle {{e}_{2},{x}_{t}}\right\rangle ,\ldots ,\left\langle {{e}_{d},{x}_{t}}\right\rangle }\right) ℓt=(⟨e1,xt⟩,⟨e2,xt⟩,…,⟨ed,xt⟩)。
结束循环
输出 θ T = 1 T ∑ t = 1 T a t {\theta }^{T} = \frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}{a}_{t} θT=T1t=1∑Tat。
我们已经知道线性学习器是具有隐私性的,因为它只是随机加权多数算法在更新参数 η \eta η正确时的一个实例:
定理11.5。线性学习器 ( S , ε , δ ) \left( {S,\varepsilon ,\delta }\right) (S,ε,δ)具有 ( ε , δ ) \left( {\varepsilon ,\delta }\right) (ε,δ) - 差分隐私性。
接下来需要分析线性学习器(LinearLearner)的分类准确率,这相当于考虑私有随机加权多数(RWM)算法的遗憾界。
定理11.6。如果 S S S由 T T T个独立同分布(i.i.d.)样本 x ∼ D x \sim \mathcal{D} x∼D组成,那么至少以 1 − β 1 - \beta 1−β的概率,线性学习器输出一个向量 θ T {\theta }^{T} θT,使得:
E x ∼ D [ ⟨ θ T , x ⟩ ] ≤ min θ ∗ E x ∼ D [ ⟨ θ ∗ , x ⟩ ] + O ( ln ( 1 / δ ) ln ( d / β ) ε T ) , {\mathbb{E}}_{x \sim \mathcal{D}}\left\lbrack \left\langle {{\theta }^{T},x}\right\rangle \right\rbrack \leq \mathop{\min }\limits_{{\theta }^{ * }}{\mathbb{E}}_{x \sim \mathcal{D}}\left\lbrack \left\langle {{\theta }^{ * },x}\right\rangle \right\rbrack + O\left( \frac{\sqrt{\ln \left( {1/\delta }\right) }\ln \left( {d/\beta }\right) }{\varepsilon \sqrt{T}}\right) , Ex∼D[⟨θT,x⟩]≤θ∗minEx∼D[⟨θ∗,x⟩]+O(εTln(1/δ)ln(d/β)),
其中 d d d是专家的数量。证明。根据定理11.4,我们至少以 1 − β / 2 1 - \beta /2 1−β/2的概率有以下保证:
1 T ∑ t = 1 T ⟨ a t , x t ⟩ ≤ min i ∈ { 1 , … , d } ⟨ e i , 1 T ∑ t = 1 T x t ⟩ + O ( ln ( 1 / δ ) ln ( d / β ) ε T ) \frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}\left\langle {{a}_{t},{x}_{t}}\right\rangle \leq \mathop{\min }\limits_{{i \in \{ 1,\ldots ,d\} }}\left\langle {{e}_{i},\frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}{x}_{t}}\right\rangle + O\left( \frac{\sqrt{\ln \left( {1/\delta }\right) }\ln \left( {d/\beta }\right) }{\varepsilon \sqrt{T}}\right) T1t=1∑T⟨at,xt⟩≤i∈{1,…,d}min⟨ei,T1t=1∑Txt⟩+O(εTln(1/δ)ln(d/β))
= min θ ∗ ∈ [ 0 , 1 ] d : ∥ θ ∗ ∥ 1 = 1 ⟨ θ ∗ , 1 T ∑ t = 1 T x t ⟩ + O ( ln ( 1 / δ ) ln ( d / β ) ε T ) . = \mathop{\min }\limits_{{{\theta }^{ * } \in {\left\lbrack 0,1\right\rbrack }^{d} : {\begin{Vmatrix}{\theta }^{ * }\end{Vmatrix}}_{1} = 1}}\left\langle {{\theta }^{ * },\frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}{x}_{t}}\right\rangle + O\left( \frac{\sqrt{\ln \left( {1/\delta }\right) }\ln \left( {d/\beta }\right) }{\varepsilon \sqrt{T}}\right) . =θ∗∈[0,1]d:∥θ∗∥1=1min⟨θ∗,T1t=1∑Txt⟩+O(εTln(1/δ)ln(d/β)).
在第一个等式中,我们利用了单纯形上线性函数的最小值在单纯形的一个顶点处取得这一事实。注意到每个 x t ∼ D {x}_{t} \sim \mathcal{D} xt∼D是相互独立的,并且每个 ⟨ x t , e i ⟩ \left\langle {{x}_{t},{e}_{i}}\right\rangle ⟨xt,ei⟩都在 [ − 1 , 1 ] \left\lbrack {-1,1}\right\rbrack [−1,1]范围内有界,我们可以两次应用阿祖玛不等式(Azuma’s inequality),至少以 1 − β / 2 1 - \beta /2 1−β/2的概率对这两个量进行界定:
∣ 1 T ∑ t = 1 T ⟨ a t , x t ⟩ − 1 T ∑ t = 1 T E x ∼ D ⟨ a t , x ⟩ ∣ \left| {\frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}\left\langle {{a}_{t},{x}_{t}}\right\rangle - \frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}{\mathbb{E}}_{x \sim \mathcal{D}}\left\langle {{a}_{t},x}\right\rangle }\right| T1t=1∑T⟨at,xt⟩−T1t=1∑TEx∼D⟨at,x⟩
= ∣ 1 T ∑ t = 1 T ⟨ a t , x t ⟩ − E x ∼ D ⟨ θ T , x ⟩ ∣ ≤ O ( ln ( 1 / β ) T ) = \left| {\frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}\left\langle {{a}_{t},{x}_{t}}\right\rangle - {\mathbb{E}}_{x \sim \mathcal{D}}\left\langle {{\theta }^{T},x}\right\rangle }\right| \leq O\left( \sqrt{\frac{\ln \left( {1/\beta }\right) }{T}}\right) = T1t=1∑T⟨at,xt⟩−Ex∼D⟨θT,x⟩ ≤O(Tln(1/β))
并且
max i ∈ { 1 , … , d } ∣ ⟨ e i , 1 T ∑ t = 1 T x t ⟩ − E x ∼ D ⟨ e i , x ⟩ ∣ ≤ O ( ln ( d / β ) T ) . \mathop{\max }\limits_{{i \in \{ 1,\ldots ,d\} }}\left| {\left\langle {{e}_{i},\frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}{x}_{t}}\right\rangle - {\mathbb{E}}_{x \sim \mathcal{D}}\left\langle {{e}_{i},x}\right\rangle }\right| \leq O\left( \sqrt{\frac{\ln \left( {d/\beta }\right) }{T}}\right) . i∈{1,…,d}max ⟨ei,T1t=1∑Txt⟩−Ex∼D⟨ei,x⟩ ≤O(Tln(d/β)).
因此我们也有:
max θ ∗ ∈ [ 0 , 1 ] d : ∥ θ ∗ ∥ 1 = 1 ∣ ⟨ θ ∗ , 1 T ∑ t = 1 T x t ⟩ − E x ∼ D ⟨ θ ∗ , x ⟩ ∣ ≤ O ( ln d / β T ) . \mathop{\max }\limits_{{{\theta }^{ * } \in {\left\lbrack 0,1\right\rbrack }^{d} : {\begin{Vmatrix}{\theta }^{ * }\end{Vmatrix}}_{1} = 1}}\left| {\left\langle {{\theta }^{ * },\frac{1}{T}\mathop{\sum }\limits_{{t = 1}}^{T}{x}_{t}}\right\rangle - {\mathbb{E}}_{x \sim \mathcal{D}}\left\langle {{\theta }^{ * },x}\right\rangle }\right| \leq O\left( \sqrt{\frac{\ln d/\beta }{T}}\right) . θ∗∈[0,1]d:∥θ∗∥1=1max ⟨θ∗,T1t=1∑Txt⟩−Ex∼D⟨θ∗,x⟩ ≤O(Tlnd/β).
将这些不等式结合起来,我们得到关于算法 θ T {\theta }^{T} θT输出的最终结果:
E x ∼ D ⟨ θ T , x ⟩ ≤ min θ ∗ ∈ [ 0 , 1 ] d : ∥ θ ∗ ∥ 1 = 1 E x ∼ D ⟨ θ ∗ , x ⟩ + O ( ln ( 1 / δ ) ln ( d / β ) ε T ) . {\mathbb{E}}_{x \sim \mathcal{D}}\left\langle {{\theta }^{T},x}\right\rangle \leq \mathop{\min }\limits_{{{\theta }^{ * } \in {\left\lbrack 0,1\right\rbrack }^{d} : {\begin{Vmatrix}{\theta }^{ * }\end{Vmatrix}}_{1} = 1}}{\mathbb{E}}_{x \sim \mathcal{D}}\left\langle {{\theta }^{ * },x}\right\rangle + O\left( \frac{\sqrt{\ln \left( {1/\delta }\right) }\ln \left( {d/\beta }\right) }{\varepsilon \sqrt{T}}\right) . Ex∼D⟨θT,x⟩≤θ∗∈[0,1]d:∥θ∗∥1=1minEx∼D⟨θ∗,x⟩+O(εTln(1/δ)ln(d/β)).
11.4 参考文献注释
机器学习的可能近似正确(PAC)模型由瓦利安特(Valiant)于1984年提出[83],统计查询(SQ)模型由凯恩斯(Kearns)提出[53]。随机加权多数算法最初由利特尔斯特恩(Littlestone)和沃穆思(Warmuth)提出[57],并且已经以多种形式进行了研究。有关综述,请参阅布卢姆(Blum)和曼苏尔(Mansour)[9]或阿罗拉(Arora)等人的文章[1]。我们用于随机加权多数算法的遗憾界在文献[1]中给出。
机器学习是差分隐私领域最早研究的主题之一,始于布卢姆(Blum)等人的工作[7],他们表明在统计查询学习框架下运行的算法可以转换为隐私保护算法。差分隐私学习的样本复杂度最早由卡西维斯瓦纳坦(Kasiviswanathan)、李(Lee)、尼斯姆(Nissim)、拉斯霍德尼科娃(Raskhodnikova)和史密斯(Smith)在《我们能私下学习什么?》[52]中进行了考虑,该文献在多项式因子范围内刻画了私有学习的样本复杂度。有关私有学习样本复杂度的更精细分析,请参阅文献[3, 4, 12, 19]。
关于高效机器学习算法也有大量的研究工作,包括著名的支持向量机(SVM)和经验风险最小化器框架[13, 55, 76]。谱学习技术,包括主成分分析(PCA)和低秩矩阵近似也得到了研究[7,14,33,42,43,51]。
从专家建议中进行私有学习最早由德沃克(Dwork)等人考虑[26]。随机加权多数算法在不做修改的情况下(当更新参数设置适当时)具有隐私保护特性这一事实是业内常识(源于高级组合定理[32]),并且已被广泛应用;例如,在文献[48]中。有关私有在线学习的更一般研究,请参阅文献[50],有关经验风险最小化的更一般研究,请参阅文献[50, 13]。
目录导航
第1章:https://blog.csdn.net/AdamCY888/article/details/146454841
第2章:https://blog.csdn.net/AdamCY888/article/details/146455093
第3章(1/3):https://blog.csdn.net/AdamCY888/article/details/146455756
第3章(2/3):https://blog.csdn.net/AdamCY888/article/details/146455796
第3章(3/3):https://blog.csdn.net/AdamCY888/article/details/146455328
第4章:https://blog.csdn.net/AdamCY888/article/details/146455882
第5章:https://blog.csdn.net/AdamCY888/article/details/146456100
第6章(1/2):https://blog.csdn.net/AdamCY888/article/details/146456712
第6章(2/2):https://blog.csdn.net/AdamCY888/article/details/146456972
第7章:https://blog.csdn.net/AdamCY888/article/details/146457037
第8章:https://blog.csdn.net/AdamCY888/article/details/146457172
第9章:https://blog.csdn.net/AdamCY888/article/details/146457257
第10章:https://blog.csdn.net/AdamCY888/article/details/146457331
第11章:https://blog.csdn.net/AdamCY888/article/details/146457418
第12章:https://blog.csdn.net/AdamCY888/article/details/146457489
第13章(含附录):https://blog.csdn.net/AdamCY888/article/details/146457601