机器学习数学基础(1)一最优化方法

1.梯度下降法

梯度下降法沿着梯度的反方向进行搜索,利用了函数的一阶导数信息。梯度下降法的迭代公式。

                                                x^{k+1}=x^{k}+\lambda _{k}d^{k}

根据函数的一阶泰勒展开,在负梯度方向,函数值是下降的。只要学习率设置的足够小,并且没有到达梯度为0的点处,每次迭代时函数值一定会下降。需要设置学习率为一个非常小的正数的原因是要保证迭代之后的xk+1位于迭代之前的值xk的邻域内,从而可以忽略泰勒展开中的高次项,保证迭代时函数值下降。梯度下降法只能保证找到梯度为0的点,不能保证找到极小值点。迭代终止的判定依据是梯度值充分接近于0,或者达到最大指定迭代次数。

梯度下降详解参见:理解梯度下降法

2.牛顿法

牛顿法利用了函数的一阶和二阶导数信息,直接寻找梯度为0的点。牛顿法的迭代公式为:

                                                                         x^{k+1}=x^{k}-G_{k}^{-1}g_{k}

其中Gk为Hessian矩阵,g为梯度向量。

牛顿法不能保证每次迭代时函数值下降,也不能保证收敛到极小值点。在实现时,也需要设置学习率,原因和梯度下降法相同,是为了能够忽略泰勒展开中的高阶项。学习率的设置通常采用直线搜索(line search)技术。迭代终止的判定依据是梯度值充分接近于0,或者达到最大指定迭代次数。牛顿法比梯度下降法有更快的收敛速度,但每次迭代时需要计算Hessian矩阵,并求解一个线性方程组,运算量大。另外,如果Hessian矩阵不可逆,则这种方法失效。

牛顿法详解参见:理解牛顿法

3.拉格朗日乘数法(有约束条件优化)

机器学习中用到拉格朗日乘数法的地方有:主成分分析;线性判别分析;流形学习中的拉普拉斯特征映射;隐马尔科夫模型

4.凸优化

数值优化算法面临两个方面的问题:局部极值,鞍点。前者是梯度为0的点,也是极值点,但不是全局极小值;后者连局部极值都不是,在鞍点处Hessian矩阵不定,即既非正定,也非负定。

凸优化通过对目标函数,优化变量的可行域进行限定,可以保证不会遇到上面两个问题。凸优化是一类特殊的优化问题,它要求:

  • 优化变量的可行域是一个凸集
  • 目标函数是一个凸函数

凸优化最好的一个性质是:所有局部最优解一定是全局最优解。

机器学习中典型的凸优化问题有:

线性回归;岭回归;LASSO回归;Logistic回归;支持向量机;Softamx回归

凸优化详解参见:理解凸优化

5.拉格朗日对偶与KKT条件

详解参见:一文理解拉格朗日对偶和KKT条件

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值