信赖域算法原理

提到最优化方法,常见的有梯度下降法(衍生出来的有批梯度下降,随机梯度下降)、牛顿法(衍生出来了拟牛顿)等。我们知道,最优化在机器学习中,是为了优化损失函数,求得其最小值,即为(mathop {min }limits_theta f({x_theta })),其中 (theta) 为损失函数的参数,最优化的目的就是找到最佳的(theta)使得损失函数最小。梯度下降的方法是求出损失函数在某一点的梯度,然后沿着负梯度方向走一小步,然后继续求新点的梯度,继续的迭代,直到达到迭代限定的次数,或者梯度极小,则迭代结束,求得最小值。对于牛顿法的原理,这里简单推导下: 先用泰勒展开去逼近目标函数(f(x))即为 [varphi (x) = f({x_k}) + f’({x_k})(x - {x_k}) + frac{1}{2}f’’({x_k}){(x - {x_k})^2}] (phi (x))是二阶展开式,高阶项被略去,既然我们把其当做目标函数的逼近式,则我们对该函数求最值,那么采用的方法就是求出展开后的二次逼近式的导数,然后另其等于0,即如下: [varphi ‘(x) = 0,] [f’({x_k}) + f’’({x_k})(x - {x_k}) = 0] 然后得出 [x = {x_k} - frac{f’({x_k})} {f’’({x_k})}] 这里我们感性的理解下这种思路,我们知道,当函数在点(x_k)泰勒展开时,取其前几阶式(牛顿法取的是二阶)用于逼近原始的函数,那么只有在展开的那个点附近,才能用泰勒展开的式子作为近似原始函数,因为我们取的毕竟是有限的阶数(高阶的我们已省略),那

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值