文章目录
样本平均近似(Sample Average Approximation)与随机梯度下降(Stochastic Gradient Descent)
1. 随机优化的基本形式
随机优化问题通常为如下形式:
min x ∈ X { f ( x ) ≜ E ξ [ F ( x , ξ ) ] } \min\limits_{x\in X}\left\{f(x)\triangleq E_{\xi}[F(x,\xi)]\right\} x∈Xmin{
f(x)≜Eξ[F(x,ξ)]}
其中,函数 F ( x , ξ ) F(x,\xi) F(x,ξ)包含了决策变量或者向量 x x x,以及一个随机的变量或向量 ξ \xi ξ。随机变量 ξ \xi ξ是在 Ω ⊆ R d \Omega\subseteq \mathbb{R}^d Ω⊆Rd上服从某个分布 P P P的。期望的值为 E ξ [ F ( x , ξ ) ] = ∫ ξ ∈ Ω F ( x , ξ ) d P ( ξ ) \mathbb{E}_\xi[F(x,\xi)]=\int_{\xi\in \Omega}F(x,\xi)dP(\xi) Eξ[F(x,ξ)]=∫ξ∈ΩF(x,ξ)dP(ξ)。
例子:报纸供应商需要决定每天的库存,满足需求的同时最大化利润。假设库存的报纸的数量 q q q是决策变量,每份报纸的购进价格为 c c c,每份售出报纸价格为 p p p,用 D D D表示顾客购买的报纸的数量。则模型为:
max q E D [ p × m i n ( q , D ) − c × q ] \max\limits_{q}\mathbb{E}_{D}[p\times min(q,D)-c\times q] qmaxED[p×min(q,D)−c×q]
考虑 c c c是某个常量,该模型中的 D D D对应 ξ \xi ξ,为某个随机变量, q q q是决策变量对应标准模型中的 x x x。
经验风险最小化
在机器学习算法中,损失函数定义为 l ( f ( x ) , y ) l(f(x),y) l(f(x),y),根据随机优化问题的形式定义为:
min f ∈ F E x , y [ l ( f ( x ) , y ) ] \min\limits_{f\in \mathcal{F}}E_{x,y}[l(f(x),y)] f∈FminEx,y[l(f(x),y)]
2. 样本平均近似(Sample Average Approximation)
解决随机优化的一种方法是使用蒙特卡洛采样。设 ξ 1 , … , ξ N \xi_1,\dots, \xi_N ξ1,…,ξN是独立同分布的,随机采样的变量。考虑如下的对原问题的估计:
min x ∈ X f N ( x ) = 1 N ∑ i = 1 N F ( x , ξ i ) \min\limits_{x\in X}f^N(x)=\frac{1}{N}\sum\limits_{i=1}^{N}F(x,\xi^i) x∈XminfN(x)=N1i=1∑NF(x,ξi)
其中 X X X实在 R n \mathbb{R}^n Rn上非空的闭集, ξ \xi ξ是随机变量,服从分布 P P P,在 R d \mathbb{R}^d Rd上的子集 Ξ ⊂ R d \Xi\subset \mathbb{R}^d Ξ⊂Rd。函数 F : X × Ξ → R F:X\times \Xi\rightarrow \mathbb{R} F:X×Ξ→R。
根据该函数的形式,可以转换为期望的形式:
f N ( x ) = E p N [ F ( x , ξ ) ] f^N(x)=\mathbb{E}_{p_N}[F(x,\xi)] fN(x)=EpN[F(x,ξ)]
根据大数定理, f N ( x ) f^N(x) fN(x)以1的概率收敛到 f ( x ) f(x) f(x)当 N → ∞ N\rightarrow \infty N→∞。因为 E [ f N ( x ) ] = f ( x ) \mathbb{E}[f^N(x)]=f(x) E[fN(x)]=f(x), f N ( x ) f^N(x) fN(x)是 f ( x ) f(x) f(x)的无偏估计。
因此,可以认为当 N → ∞ N\rightarrow \infty N→∞的时候,使用样本平均估计得到的最优值收敛到对应的原始问题的最优值。
定理:假设有一个紧凑(compact)的集合 C ⊂ R n C\subset \mathbb{R}^n C⊂Rn,并且:
- 原始问题的最优解的集合 X ∗ X_* X∗是非空的,并且包含在 C C C内;
- 函数 f ( x ) f(x) f(x)是有限的,并且在 C C C内是连续的;
- 当 N → ∞ N\rightarrow \infty N→∞的时候, f N ( x ) f^N(x) fN(x)以1的概率收敛到 f ( x ) f(x) f(x),对于 x ∈ C x\in C x∈C;
- 当 N N N足够大的时候,集合 X ∗ n X_*^{n} X∗n是非空的概率为1, X ∗ n ⊂ C X_*^n\subset C X∗n⊂C
那么当 N → ∞ N\rightarrow \infty N→∞的时候, f ∗ N → f ∗ f_*^{N}\rightarrow f_* f∗N→f∗以及 D ( X ∗ N − X ∗ ) → 0 \mathbb{D}(X_*^{N}-X_*)\rightarrow0 D(X∗N−X∗)→0的概率为1。
样本平均近似方法的最优值的渐进性(Asymptotics)为:
- 对于 x ~ ∈ X \widetilde{x}\in X x ∈X,期望值 E [ F ( x ~ , ξ 2 ) ] \mathbb{E}[F(\widetilde{x},\xi^2)] E[F(x ,ξ2)]是有限的;
- 存在一个可衡量的函数 C : Ξ → R + C:\Xi\rightarrow \mathbb{R}_{+} C:Ξ→R+, E [ C ( ξ 2 ) ] \mathbb{E}[C(\xi^2)] E[C(ξ2)]是有限的,并且 ∣ F ( x , ξ ) − F ( x ′ , ξ ) ∣ ≤ C ( ξ ) ∥ x − x ′ ∥ |F(x,\xi)-F(x',\xi)|\leq C(\xi)\|x-x'\| ∣F(x,ξ)−F(x′,ξ)∣≤C(ξ)∥x−x′∥对于所有的 x , x ′ ∈ X , ξ ∈ Ξ x,x'\in X, \xi \in \Xi x,x′∈X,ξ∈Ξ成立。
定理:设 f ∗ N f_*^{N} f∗N是样本平均近似的最优值。假设采样的样本是独立同分布的,集合 X X X是紧凑(compact)的,并且前面的渐进性的两个假设满足,则下面的等式成立:
f ∗ N = inf x ∈ X ∗ f N ( x ) + o p ( N − 1 / 2 ) f_*^N=\inf\limits_{x\in X_*}f^N(x)+o_p(N^{-1/2})