优化方法

一阶优化方法:梯度下降法
梯度下降不一定能够找到全局最优解,有可能是一个局部最优解。如果损失函数是凸函数,梯度下降法得到的解一定是全局最优解。

梯度下降法分为三类:

  • batch gradient descent
    每次更新参数使用全部的样本,当样本数目很多的时候,训练过程很慢
  • stochastic gradient descent
    每次更新参数使用一个样本,当样本数目很多的时候,训练速度快
  • mini-batch gradient descent
    每次更新参数使用小批量的样本

梯度下降法使用的是一阶信息,通俗讲就是只是用了当前点一阶导数信息决定搜索方向。
在这里插入图片描述

二阶优化方法:牛顿法
牛顿法迭代轮数远小于梯度下降法,因为其使用了二阶信息。通俗点就是利用当前点的一阶和二阶导数来决定搜索方向。
当是多变量的时候,需要Hessian矩阵的逆。

每次迭代过程中都需要计算Hessian矩阵及其逆,特别是维度很高的时候,计算量很大,因此机器学习优化问题中很少用到牛顿法。
在这里插入图片描述

拟牛顿法
上面提到牛顿法在计算Hessian矩阵及其逆的时候,计算量很大。因此很多牛顿法的变形出现了,统称拟牛顿法。

拟牛顿法的核心思想是:不用二阶导数而构造出可以近似Hessian矩阵(或Hessian矩阵的逆)的正定矩阵。最常用的拟牛顿算法如下:

  • DFP
    核心:通过迭代的方法,对 H k + 1 − 1 H_{k+1}^{-1} Hk+11做近似
  • BFGS
    与DFP相比,BFGS性能更佳,目前它成为求解无约束非线性优化问题最常用的方法之一。
    BFGS是采用迭代的方法,直接逼近Hessian矩阵。
  • L-BFGS
    BFGS需要用到N×N的矩阵,当N很大的时候,存储它需要很大的内存资源。L-BFGS对BFGS算法进行了近似,核心思想:不再存储完整的矩阵

拟牛顿条件:指出了用来近似的矩阵应该满足的条件
符号说明:用B表示对Hessian矩阵H的近似,用D表示对Hessian矩阵的逆 H − 1 H^

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
优化理论是研究如何找到一个最优解的数学分支,它广泛应用于各个领域,如工程、经济、计算机科学等。算法优化方法是解决最优化问题的实际方法,它可以分为精确算法和近似算法两类。精确算法是指可以找到最优解的算法,通常用于解决小规模的问题,例如线性规划、整数规划等。近似算法是指不能保证找到最优解,但可以找到接近最优解的算法,通常用于解决大规模的问题,例如贪心算法、动态规划等。 常见的算法优化方法包括: 1. 线性规划:通过线性规划模型来寻找最优解。 2. 整数规划:在线性规划的基础上限制变量为整数,通过整数规划模型来寻找最优解。 3. 非线性规划:通过非线性规划模型来寻找最优解。 4. 模拟退火算法:一种全局优化算法,通常用于解决复杂的优化问题。 5. 遗传算法:一种演化算法,通过模拟自然界中的进化过程来寻找最优解。 6. 神经网络算法:通过模拟生物神经系统的学习过程来寻找最优解。 7. 粒子群算法:一种基于群体智能的算法,通过模拟粒子在搜索空间中的移动来寻找最优解。 8. 支持向量机:一种基于统计学习的算法,通过建立分类边界来寻找最优解。 9. 蒙特卡罗方法:通过随机采样来估计函数的期望值,从而寻找最优解。 这些算法优化方法都有各自的优点和适用范围,研究者需要根据具体情况选择合适的算法来解决问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值