机器学习优化方法

0.GD(Gradient Descent)

概念:梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。
不足:
(1)靠近极小值时收敛速度减慢,如下图所示(这是因为越靠近极小值,参数的权重更新量越小,自己实现一个线性回归就知道了);
(2)在鞍部点梯度为零无法下降。
(3)直线搜索时可能会产生一些问题(比较容易在极小值点附近震荡);
(4)可能会“之字形”地下降。(特征没做归一化,不同量纲导致的梯度更新量差别大,迭代过程中容易偏来偏去的。不同方向的量纲不同但是学习率权值相同)


1. GDM (Gradient Descent with Momentum)

 

keyimprovement : imitate the world's momentum
the equation : eq?V_t%3DbV_%7Bt-1%7D%20+%20%281-b%29%5Cfrac%7B%5Cpartial%20J%7D%7B%5Cpartial%20W%7D%2C%20b%3D0.9

2. AdaGrad (Adaptive Gradient)

 

添加累计梯度作为量纲均衡化学习率。

41fcc991314a476592bdfbefa111d013.png

ad87b3b01eaa4194ba1bf330031c1385.png


3. RMSProp (Root Mean Square Propagation)

 

大体原理和AdaGrad一致,但是Ada的历史权重影响过大,RMS在此基础上引入历史变量权值,类似动量算法。

502b3d26f4ae40e2bf5432d40befb15b.png


4. Adam (Adaptive Moment Estimation)

 

Adam 是 GDM 和 RMSProp的结合
 

111f8764ad8c4ecbb560fdd6bd21ae2e.png


5. Mini-batch Gradient Descent

b8354b2cf1b54631aadee022d8fc2869.png
在GD中,我们使用整个训练集数据来计算损失函数的梯度并更新一次参数。 SGD 一次运行一个样本或小批量样本,然后计算梯度或小批量梯度的平均值,然后更新它。 然后随机选择这个样本或小批量样本,因此称为随机梯度下降法。

 

 

 

 

 

 

 

 

 

 

 

 

  • 6
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值