梯度下降算法_温故知新——梯度下降(Gradient Descent)

0b8e9905b913495b2f9bfd54b9e1b467.png

梯度下降(Gradient Descent)又称最速下降,是迭代法的一种,可以用于求解最小二乘法(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。

梯度下降的本质:是一种使用梯度去迭代更新权重参数使目标函数最小化的方法。

一、梯度下降的直观解释(最为经典的"下山"例子)

假设我们在一座大山上的某处位置(起点),由于我们不知道怎么下山,于是决定走一步算一步。在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步。然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。

52ce7fea5f0c13c78922061da36c90cd.png

24a50feaffe0615ec5e9214e4804af36.png

从上面可以看出,梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。当然,如果损失函数是凸函数,梯度下降法得到的解就一定是全局最优解。这里给出一个关于局部最小值和全局最小值的直观的理解。

e55f2ab6bc23d399050a3b7a5a6cc96d.png

除了局部极小值,还有一类值为“鞍点”,简单来说,它就是在某一些方向梯度下降,另一些方向梯度上升,形状似马鞍,如下图红点就是鞍点

c2162bc43132b19fe6ae6666624480c1.png

对于深度学习模型的优化来说,鞍点比局部极大值点或者极小值点带来的问题更加严重

很多机器学习或深度学习模型都以凸函数(convex function)作为损失函数,到底什么是凸函数呢?下面简单介绍一下凸函数。

凸函数的定义:如果函数

在某段区间上的任意两个点
,都有
,则称其在某段区间上凸函数。

3280b7101c5ebc121437102ab41db760.png

凸函数其实就是在某段区间只有一个低谷的函数。下图二维的例子会更加直观地理解,"碗状"曲线,"碗口"向上。

c4320502916dfbdc663c231dbef08757.png

二、梯度下降算法的过程

我们以线性回归为例:

。假设我们一共有
个样本,
。则损失函数为:

96bd482273c879bfb2a4783aa6dca9da.png

其中

可以看做是一个参数向量,

计算损失函数的梯度,可以得到:

e52ca065fc4cc970ec4a555cda58a84d.png

也就是说,为了使损失函数达到局部最小值,我们只需要沿着这个向量的反方向进行迭代即可。

那么参数的值到底该一次变化多少呢?我们通常用

来表示这个大小,称为“步长”。它的值是需要我们手动设定的。显然,
步长太小,迭代速度太慢,很长时间算法都不能结束;而步长太大,会导致迭代过快,则有可能在下降时跳过了最优解。所以,我们应该根据实际的情况,合理地设置
的值。

在每次迭代中,我们令

4c220bc2f65382702fc40a0a43639200.png

即可使损失函数最终收敛到全局最小值或局部最小值,我们也得到了我们想要的参数值。

下图是在平面上的梯度下法示意图。从图中我们可以看出,每一次迭代是沿该点梯度的负方向进行的,一步一步趋向于局部最小值或全局最小值的。

a9c6cb4db3c9a987e94f5d2ee7cea853.png

对梯度下降算法的过程进行一下总结:

1. 确认优化模型的假设函数和损失函数;

2. 参数初始化:主要是初始化

,算法终止距离
以及步长

3. 确定当前位置的损失函数的梯度;

4. 用步长乘以损失函数的梯度,得到当前位置下降的距离;

5. 更新所有的

6. 确定是否所有的

梯度下降的距离都小于
。如果小于
则算法终止,当前所有的
即为最终结果。否则进入步骤5,继续更新。

三、梯度下降法的缺点:

1. 不能保证收敛到全局最优解

2. 靠近极小值时收敛速度减慢。

3. 直线搜索时可能会产生一些问题。

4. 可能会出现“之字形”下降。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
InputStream和OutputStream是Java IO库中的两个重要类。它们用于处理字节流的输入和输出操作。 InputStream是一个抽象类,它是所有字节输入流的父类。它提供了一系列方法来读取字节数据。例如,可以使用FileInputStream类来创建一个输入流对象,然后使用read()方法逐个字节地读取文件中的数据。\[1\]\[3\] OutputStream也是一个抽象类,它是所有字节输出流的父类。它提供了一系列方法来写入字节数据。例如,可以使用FileOutputStream类来创建一个输出流对象,然后使用write()方法将字节数据写入文件中。\[1\]\[2\] 这两个类可以用于文件的读取和写入操作。例如,可以使用FileInputStream读取一个文件的字节数据,然后使用FileOutputStream将读取到的字节数据写入另一个文件中,实现文件的复制功能。\[2\] 需要注意的是,在使用这两个类进行文件操作时,需要在操作完成后及时关闭流,以释放资源。可以使用try-finally或try-with-resources语句来确保流的关闭。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* [java基础io流——OutputStream和InputStream的故事(温故知新)](https://blog.csdn.net/weixin_36586120/article/details/80486112)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [InputStream和OutputStream](https://blog.csdn.net/sspudding/article/details/88673551)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值