机器学习中的数学-02-Taylor展式与拟牛顿

本文介绍了Taylor-Maclaurin公式,展示了牛顿法和梯度下降算法在最小二乘优化中的应用,比较了它们的近似精度和收敛速度,并剖析了BFGS算法的改进。通过实例讲解,帮助理解这两种关键的数值优化技术。
摘要由CSDN通过智能技术生成

目录

Taylor展式

  • 计算函数值
  • 解释gini系数
  • 平方根公式

牛顿法

  • 梯度下降算法
  • 拟牛顿法
    – DFP
    – BFGS

一 Taylor 公式-Maclaurin公式

泰勒展开式
泰勒展开式可以在任意一点展开,即第一个式子。当在x=0处展开时称为maclaurin(麦克劳林)公式,即第二个式子。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
第三步的约等于号变成等于号是为了方便计算。对于最后一步就会产生一个迭代公式,每次将x带回等式右边就会得到一个新的x值,当|x(i)-x(i-1)|的值足够小时就认为得到了近似解。这个也就是牛顿迭代公式。
在这里插入图片描述

二 牛顿法

在这里插入图片描述
上述的目标函数/损失函数为最小二乘法。当式子中负号改为正号时也就变成了梯度上升算法。α后面的式子即为梯度方向式子。
在这里插入图片描述
在这里插入图片描述
本质上梯度下降算法是用一次函数做近似(红线),牛顿法用二次函数做近似(虚线并为抛物线)。
在这里插入图片描述
在这里插入图片描述

牛顿法在某些场景有其独特的优势,但是缺点也是很明显的。在实际应用中也需要有一些改进。

在这里插入图片描述
第四步漏了一个Hi
在这里插入图片描述
a,b为标量,v,u是向量。vvT和uuT是一个秩很小的矩阵。最开始的C0可以用单位矩阵I来替代。这时就是退化成了梯度下降算法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
BFGS如下图,跟原始梯度下降比边界是有一定变化的,而且收敛速度也更快。第一个图要10的四次方才收敛,BFGS则只要810次。
在这里插入图片描述
在这里插入图片描述

仅供个人学习所用,侵删。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值