最优化算法(一)

前言

最优化算法在机器学习中扮演着重要的角色,很多的机器学习算法最终都会归结为如下的最优化问题

minfJ(x):=λΩ(f)+Remp(f)
以上就是结构风险最小化,其中 Remp(f) 是期望风险。
Remp(f):=1mi=1ml(f(xi),yi)
其中 xi 是训练样本, yi 是相关的label, l 是损失函数。
以上优化问题需要通过相应的最优化算法去求,下面会介绍如下的最优化算法,梯度下降算法,随机梯度下降,镜像下降算法,牛顿方法,拟牛顿方法,并分析算法的收敛性。


基础知识

凸集
如果xCyCλC(1λ)x+λxC,那么 C 是凸集。

凸函数
函数f如果在凸集 X 上对任意的xxX和任意的 0<λ<1 存在
f(λx+(1λ)x)λf(x)+(1λ)f(x))

强凸函数
如果一个凸函数满足有且只有一个常数 σ>0 ,使得函数 f(x)σ2x2 是凸函数,则 f(x) 是一个强凸函数,且 σ 叫强凸常数。

Lipschitz Continuous Gradient
假设 f(x) 凸且可导,如果存在一个常数,使得任意的 x 满足
f(x)f(x)Lxx
f(x) 是Lipschitz Continuous Gradient

Bregman Divergence(Bregman散度)
如果 f(x) 凸且可导,则Bregman散度定义如下
Δf(x,x)=f(x)f(x)xx,f(x)

梯度下降算法

梯度下降算法是机器学习里面最常使用的优化算法,主要是应用在高维平滑凸函数,假如目标函数 J:n ,梯度下降的基本思想就是在 t 次迭代给定一个wt,计算梯度 J(wt) ,且

wt+1=wtηtJ(wt)
其中 ηt 是一个更新步长,有得到梯度方向时通常可以使用下面两种线性搜索的方法去得到步长。

确定线性搜索

因为 J(wtηtJ(wt)) 是一个关于 ηt 的一维凸函数,所以我们可以用一维搜索的方式如下:

ηt=argminηJ(wtηJ(wt))

非确定线性搜索

确定线性搜索的方式比较低效,我们可以通过计算每一个步长下是不是能够使得目标函数减小,一种比较常用的充分减少的条件是wolfe conditions

J(wt+1)J(wt)+c1ηtJ(wt),wt+1wt
J(wt),wt+1wtc2J(wt),wt+1wt
0<c1<c2<1

固定步长

假设 J 是一个梯度Lipschitz Continuous连续,且Lipschitz Continuous常数为L,假设梯度下降的固定长度为ηt=1L

J(wt+1)J(wt)+J(wt),wt+1wt+1Lwt+1wt
=J(wt)ηtJ(wt)2+Lη2t2J(wt)2
ηt=1L 时, J(wt)ϵ 至多迭代 O(1ϵ2)
证明: ηt=1L 时,代入上式可得
12LJ(wt)2J(wt)J(wt+1)
累加上式
12Lt=0TJ(wt)2J(w0)J(wT)J(w0)J(w)
t 时, J(wt)0 ,上式可以变型成下面式子
J(wT)2L(J(w0)J(w))T+1
2L(J(w0)J(w))T+1=ϵ

J 是强凸函数,强凸系数是σ c=1σL ,则 J(wt)J(w)ϵ 至多
log((J(w0)J(w))/ϵ)log(1/c)
次迭代。
证明:由于 J 是强凸函数,所以
J(wt)J(w)+12σJ(wt)2
J(wt)22σ(J(wt+1)J(w))
又因为
12LJ(wt)2J(wt)J(wt+1)
综合上两式得
c(J(wt)J(w))J(wt+1J(w))
递归求解得
cT(J(w0)J(w))J(wT)J(w)
解得如下
ϵ=cT(J(w0)J(w))
这里当目标函数为强凸时,梯度下降算法收敛速度是 O(log(1/ϵ)) ,但是还依赖于 log(1/c) ,而 log(1/c)σL ,当 σL 梯度下降的收敛速度最快, σL 梯度下降收敛速度最慢。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值