凸优化简介24

本文介绍了随机优化问题的基本形式,并详细讨论了样本平均近似(Sample Average Approximation)方法,包括其理论基础和渐进性质。此外,还深入探讨了随机梯度下降(Stochastic Gradient Descent)算法,分析了其收敛性和在解决随机优化问题中的应用。
摘要由CSDN通过智能技术生成

样本平均近似(Sample Average Approximation)与随机梯度下降(Stochastic Gradient Descent)

1. 随机优化的基本形式

随机优化问题通常为如下形式:
min ⁡ x ∈ X { f ( x ) ≜ E ξ [ F ( x , ξ ) ] } \min\limits_{x\in X}\left\{f(x)\triangleq E_{\xi}[F(x,\xi)]\right\} xXmin{ f(x)Eξ[F(x,ξ)]}
其中,函数 F ( x , ξ ) F(x,\xi) F(x,ξ)包含了决策变量或者向量 x x x,以及一个随机的变量或向量 ξ \xi ξ。随机变量 ξ \xi ξ是在 Ω ⊆ R d \Omega\subseteq \mathbb{R}^d ΩRd上服从某个分布 P P P的。期望的值为 E ξ [ F ( x , ξ ) ] = ∫ ξ ∈ Ω F ( x , ξ ) d P ( ξ ) \mathbb{E}_\xi[F(x,\xi)]=\int_{\xi\in \Omega}F(x,\xi)dP(\xi) Eξ[F(x,ξ)]=ξΩF(x,ξ)dP(ξ)
例子:报纸供应商需要决定每天的库存,满足需求的同时最大化利润。假设库存的报纸的数量 q q q是决策变量,每份报纸的购进价格为 c c c,每份售出报纸价格为 p p p,用 D D D表示顾客购买的报纸的数量。则模型为:
max ⁡ q E D [ p × m i n ( q , D ) − c × q ] \max\limits_{q}\mathbb{E}_{D}[p\times min(q,D)-c\times q] qmaxED[p×min(q,D)c×q]
考虑 c c c是某个常量,该模型中的 D D D对应 ξ \xi ξ,为某个随机变量, q q q是决策变量对应标准模型中的 x x x
经验风险最小化
在机器学习算法中,损失函数定义为 l ( f ( x ) , y ) l(f(x),y) l(f(x),y),根据随机优化问题的形式定义为:
min ⁡ f ∈ F E x , y [ l ( f ( x ) , y ) ] \min\limits_{f\in \mathcal{F}}E_{x,y}[l(f(x),y)] fFminEx,y[l(f(x),y)]

2. 样本平均近似(Sample Average Approximation)

解决随机优化的一种方法是使用蒙特卡洛采样。设 ξ 1 , … , ξ N \xi_1,\dots, \xi_N ξ1,,ξN是独立同分布的,随机采样的变量。考虑如下的对原问题的估计:
min ⁡ x ∈ X f N ( x ) = 1 N ∑ i = 1 N F ( x , ξ i ) \min\limits_{x\in X}f^N(x)=\frac{1}{N}\sum\limits_{i=1}^{N}F(x,\xi^i) xXminfN(x)=N1i=1NF(x,ξi)
其中 X X X实在 R n \mathbb{R}^n Rn上非空的闭集, ξ \xi ξ是随机变量,服从分布 P P P,在 R d \mathbb{R}^d Rd上的子集 Ξ ⊂ R d \Xi\subset \mathbb{R}^d ΞRd。函数 F : X × Ξ → R F:X\times \Xi\rightarrow \mathbb{R} F:X×ΞR
根据该函数的形式,可以转换为期望的形式:
f N ( x ) = E p N [ F ( x , ξ ) ] f^N(x)=\mathbb{E}_{p_N}[F(x,\xi)] fN(x)=EpN[F(x,ξ)]
根据大数定理, f N ( x ) f^N(x) fN(x)以1的概率收敛到 f ( x ) f(x) f(x) N → ∞ N\rightarrow \infty N。因为 E [ f N ( x ) ] = f ( x ) \mathbb{E}[f^N(x)]=f(x) E[fN(x)]=f(x) f N ( x ) f^N(x) fN(x) f ( x ) f(x) f(x)的无偏估计。
因此,可以认为当 N → ∞ N\rightarrow \infty N的时候,使用样本平均估计得到的最优值收敛到对应的原始问题的最优值。

定理:假设有一个紧凑(compact)的集合 C ⊂ R n C\subset \mathbb{R}^n CRn,并且:

  1. 原始问题的最优解的集合 X ∗ X_* X是非空的,并且包含在 C C C内;
  2. 函数 f ( x ) f(x) f(x)是有限的,并且在 C C C内是连续的;
  3. N → ∞ N\rightarrow \infty N的时候, f N ( x ) f^N(x) fN(x)以1的概率收敛到 f ( x ) f(x) f(x),对于 x ∈ C x\in C xC
  4. N N N足够大的时候,集合 X ∗ n X_*^{n} Xn是非空的概率为1, X ∗ n ⊂ C X_*^n\subset C XnC
    那么当 N → ∞ N\rightarrow \infty N的时候, f ∗ N → f ∗ f_*^{N}\rightarrow f_* fNf以及 D ( X ∗ N − X ∗ ) → 0 \mathbb{D}(X_*^{N}-X_*)\rightarrow0 D(XNX)0的概率为1。

样本平均近似方法的最优值的渐进性(Asymptotics)为:

  1. 对于 x ~ ∈ X \widetilde{x}\in X x X,期望值 E [ F ( x ~ , ξ 2 ) ] \mathbb{E}[F(\widetilde{x},\xi^2)] E[F(x ,ξ2)]是有限的;
  2. 存在一个可衡量的函数 C : Ξ → R + C:\Xi\rightarrow \mathbb{R}_{+} C:ΞR+ E [ C ( ξ 2 ) ] \mathbb{E}[C(\xi^2)] E[C(ξ2)]是有限的,并且 ∣ F ( x , ξ ) − F ( x ′ , ξ ) ∣ ≤ C ( ξ ) ∥ x − x ′ ∥ |F(x,\xi)-F(x',\xi)|\leq C(\xi)\|x-x'\| F(x,ξ)F(x,ξ)C(ξ)xx对于所有的 x , x ′ ∈ X , ξ ∈ Ξ x,x'\in X, \xi \in \Xi x,xX,ξΞ成立。

定理:设 f ∗ N f_*^{N} fN是样本平均近似的最优值。假设采样的样本是独立同分布的,集合 X X X是紧凑(compact)的,并且前面的渐进性的两个假设满足,则下面的等式成立:
f ∗ N = inf ⁡ x ∈ X ∗ f N ( x ) + o p ( N − 1 / 2 ) f_*^N=\inf\limits_{x\in X_*}f^N(x)+o_p(N^{-1/2})

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值