预备知识
凸 函 数 性 质 ∀ x , y ∈ d o m f , f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) 二 阶 泰 勒 展 开 ( 假 设 x < y ) f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( z ) ( y − x ) , z ∈ ( x , y ) 凸 函 数 的 强 凸 性 ∀ x ∈ d o m f , m I ⪯ ∇ 2 f ( x ) ⪯ M I ( 注 意 这 里 的 符 号 ⪯ , I 是 单 位 矩 阵 , 除 对 角 线 元 素 为 1 之 外 , 其 他 全 为 0 ) 凸函数性质\\ \forall x,y \in domf, \quad f(y) = f(x)+ \nabla f(x)^T(y-x) \\ 二阶泰勒展开(假设x < y)\\ f(y) = f(x)+ \nabla f(x)^T(y-x) + \frac{1}{2}(y-x)^T \nabla^2 f(z)(y-x),z \in (x,y) \\ 凸函数的强凸性\\ \forall x \in domf, \quad mI \preceq \nabla^2 f(x) \preceq MI\\ (注意这里的符号\preceq,I是单位矩阵,除对角线元素为1之外,其他全为0) 凸函数性质∀x,y∈domf,f(y)=f(x)+∇f(x)T(y−x)二阶泰勒展开(假设x<y)f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(z)(y−x),z∈(x,y)凸函数的强凸性∀x∈domf,mI⪯∇2f(x)⪯MI(注意这里的符号⪯,I是单位矩阵,除对角线元素为1之外,其他全为0)
预备结论(控制变量 x x x,得到不等式右边最小值)
根 据 二 阶 泰 勒 展 开 和 m I ⪯ ∇ 2 f ( x ) , 我 们 有 如 下 结 论 : p ∗ ≥ f ( x ) − 1 2 m ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 证 明 : 由 于 m I ⪯ ∇ 2 f ( x ) , 则 二 阶 泰 勒 展 开 可 转 换 为 f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) + m 2 ∣ ∣ y − x ∣ ∣ 2 2 固 定 住 x , 右 边 是 关 于 y 的 二 次 函 数 ( 凸 函 数 ) , 求 最 小 值 , 当 y = y ~ = x − 1 m ∇ f ( x ) 时 , 有 : f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) + m 2 ∣ ∣ y − x ∣ ∣ 2 2 f ( y ) ≥ f ( x ) − 1 2 m ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 因 为 对 于 ∀ y ∈ d o m f , 上 式 都 成 立 , 当 左 边 的 f ( y ) = p ∗ 时 , 则 有 p ∗ ≥ f ( x ) − 1 2 m ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 根据二阶泰勒展开和mI \preceq \nabla^2 f(x),我们有如下结论:\\ p^* \geq f(x)- \frac{1}{2m}||\nabla f(x)||^2_2\\ 证明: 由于mI \preceq \nabla^2 f(x) ,则二阶泰勒展开可转换为 \\ f(y) \geq f(x)+ \nabla f(x)^T(y-x) + \frac{m}{2}||y-x||^2_2 \\ 固定住x,右边是关于y的二次函数(凸函数),求最小值,当y = \tilde{y} = x-\frac{1}{m} \nabla f(x)时,有:\\ f(y) \geq f(x)+ \nabla f(x)^T(y-x) + \frac{m}{2}||y-x||^2_2 \\ f(y) \geq f(x)-\frac{1}{2m}||\nabla f(x)||^2_2\\ 因为对于 \forall y\in domf, \quad 上式都成立,当左边的f(y) = p^* 时,则有\\ p^* \geq f(x)-\frac{1}{2m}||\nabla f(x)||^2_2 \\ 根据二阶泰勒展开和mI⪯∇2f(x),我们有如下结论:p∗≥f(x)−2m1∣∣∇f(x)∣∣22证明:由于mI⪯∇2f(x),则二阶泰勒展开可转换为f(y)≥f(x)+∇f(x)T(y−x)+2m∣∣y−x∣∣22固定住x,右边是关于y的二次函数(凸函数),求最小值,当y=y~=x−m1∇f(x)时,有:f(y)≥f(x)+∇f(x)T(y−x)+2m∣∣y−x∣∣22f(y)≥f(x)−2m1∣∣∇f(x)∣∣22因为对于∀y∈domf,上式都成立,当左边的f(y)=p∗时,则有p∗≥f(x)−2m1∣∣∇f(x)∣∣22
正式推导(以凸函数性质中的不等式为基础,刻画迭代过程)
因 为 ∇ 2 f ( x ) ≤ M I , 则 f ( y ) ≤ f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T M I ( y − x ) 化 简 得 f ( y ) ≤ f ( x ) + ∇ f ( x ) T ( y − x ) + M 2 ∣ ∣ y − x ∣ ∣ 2 2 定 义 关 于 t 的 新 函 数 f ~ ( t ) : f ~ ( t ) = f ( x − t ∇ f ( x ) ) , R → R , 这 个 新 函 数 代 表 迭 代 过 程 并 令 y = x − ∇ f ( x ) , 这 样 做 使 得 y 代 表 自 变 量 的 迭 代 过 程 , 得 f ~ ( t ) ≤ f ( x ) − t ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 + M t 2 2 ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 假 定 采 用 精 确 直 线 搜 索 , 在 不 等 式 两 边 同 时 以 t 为 自 变 量 求 最 小 , 左 边 为 f ~ ( t e x a c t ) , 右 边 是 一 个 简 单 的 二 次 函 数 , 取 最 小 值 时 t = 1 M , 则 可 得 f ( x + ) = f ~ ( t ) ≤ f ( x ) − 1 2 M ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 式 子 两 边 同 时 减 去 p ∗ , 得 f ( x + ) − p ∗ ≤ f ( x ) − p ∗ − 1 2 M ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 因为 \nabla^2 f(x) \leq MI, 则\\ f(y) \leq f(x)+ \nabla f(x)^T(y-x) + \frac{1}{2}(y-x)^T MI (y-x) \\ 化简得\\ f(y) \leq f(x)+ \nabla f(x)^T(y-x) + \frac{M}{2} || y-x||^2_2 \\ 定义关于t的新函数\tilde{f}(t):\tilde{f}(t) = f(x-t \nabla f(x)), R \rightarrow R, 这个新函数代表迭代过程\\ 并令y = x-\nabla f(x), 这样做使得y代表自变量的迭代过程,得\\ \tilde{f}(t) \leq f(x)-t|| \nabla f(x)||^2_2 + \frac{Mt^2}{2} || \nabla f(x)||^2_2\\ 假定采用精确直线搜索,在不等式两边同时以t为自变量求最小,左边为\tilde{f}(t_{exact}),\\ 右边是一个简单的二次函数,取最小值时t = \frac{1}{M},则可得\\ f(x^+) = \tilde{f}(t) \leq f(x)-\frac{1}{2M} || \nabla f(x)||^2_2 \\ 式子两边同时减去p*, 得\\ f(x^+) -p^* \leq f(x)- p^* -\frac{1}{2M} || \nabla f(x)||^2_2\\ 因为∇2f(x)≤MI,则f(y)≤f(x)+∇f(x)T(y−x)+21(y−x)TMI(y−x)化简得f(y)≤f(x)+∇f(x)T(y−x)+2M∣∣y−x∣∣22定义关于t的新函数f~(t):f~(t)=f(x−t∇f(x)),R→R,这个新函数代表迭代过程并令y=x−∇f(x),这样做使得y代表自变量的迭代过程,得f~(t)≤f(x)−t∣∣∇f(x)∣∣22+2Mt2∣∣∇f(x)∣∣22假定采用精确直线搜索,在不等式两边同时以t为自变量求最小,左边为f~(texact),右边是一个简单的二次函数,取最小值时t=M1,则可得f(x+)=f~(t)≤f(x)−2M1∣∣∇f(x)∣∣22式子两边同时减去p∗,得f(x+)−p∗≤f(x)−p∗−2M1∣∣∇f(x)∣∣22
合并以上推导得到最终结果
由 于 预 备 结 论 中 有 p ∗ ≥ f ( x ) − 1 2 m ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 , 稍 加 变 形 则 有 2 m ( p ∗ − f ( x ) ) ≥ − ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 则 f ( x + ) − p ∗ ≤ f ( x ) − p ∗ − 1 2 M ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 代 入 上 式 可 得 f ( x + ) − p ∗ ≤ f ( x ) − p ∗ − 1 2 M ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 ≤ f ( x ) − p ∗ + m M ( p ∗ − f ( x ) ) = ( 1 − m M ) ( f ( x ) − p ∗ ) 省 去 中 间 过 程 , 则 有 f ( x + ) − p ∗ ≤ ( 1 − m M ) ( f ( x ) − p ∗ ) 重 复 运 用 以 上 不 等 式 , 则 有 f ( x ( k ) − p ∗ ) ≤ c k ( f ( x 0 − p ∗ ) , 其 中 c = ( 1 − m M ) < 1 则 有 lim k → ∞ f ( x ( k ) ) = p ∗ 至 多 经 过 log ( ( f ( x 0 − p ∗ ) / ϵ ) log ( 1 / c ) 次 迭 代 ( 换 底 公 式 log a b = log c b log c a ) , 一 定 可 以 得 到 f ( x ( k ) − p ∗ ) ≤ ϵ 由于预备结论中有 p^* \geq f(x)-\frac{1}{2m}||\nabla f(x)||^2_2,稍加变形则有\\ 2m (p^* - f(x) )\geq -||\nabla f(x)||^2_2\\ 则f(x^+) -p^* \leq f(x)- p^* -\frac{1}{2M} || \nabla f(x)||^2_2 代入上式可得\\f(x^+) -p^* \leq f(x)- p^* -\frac{1}{2M} || \nabla f(x)||^2_2\\ \leq f(x)- p^* +\frac{m}{M} (p^* - f(x) ) \\ = (1-\frac{m}{M})( f(x)- p^*)\\ 省去中间过程,则有\\ f(x^+)-p^* \leq (1-\frac{m}{M})( f(x)- p^*)\\ 重复运用以上不等式,则有\\ f(x^{(k)}-p^*) \leq c^k(f(x^{0}-p^*),\quad 其中c = (1-\frac{m}{M}) < 1\\ 则有\\ \lim_{k \rightarrow \infty}f(x^{(k)}) = p^*\\ 至多经过\\ \frac{\log((f(x^{0}-p^*)/\epsilon)}{\log(1/c)}次迭代(换底公式\log_a^b = \frac{\log_c^b}{\log_c^a}),一定可以得到f(x^{(k)}-p^*) \leq \epsilon 由于预备结论中有p∗≥f(x)−2m1∣∣∇f(x)∣∣22,稍加变形则有2m(p∗−f(x))≥−∣∣∇f(x)∣∣22则f(x+)−p∗≤f(x)−p∗−2M1∣∣∇f(x)∣∣22代入上式可得f(x+)−p∗≤f(x)−p∗−2M1∣∣∇f(x)∣∣22≤f(x)−p∗+Mm(p∗−f(x))=(1−Mm)(f(x)−p∗)省去中间过程,则有f(x+)−p∗≤(1−Mm)(f(x)−p∗)重复运用以上不等式,则有f(x(k)−p∗)≤ck(f(x0−p∗),其中c=(1−Mm)<1则有k→∞limf(x(k))=p∗至多经过log(1/c)log((f(x0−p∗)/ϵ)次迭代(换底公式logab=logcalogcb),一定可以得到f(x(k)−p∗)≤ϵ