和学习率_机器学习中的成本函数，学习率和梯度下降

最新推荐文章于 2023-11-28 22:01:29 发布

by翠

最新推荐文章于 2023-11-28 22:01:29 发布

阅读量851

点赞数

文章标签：和学习率

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42512159/article/details/112636351

版权

本文介绍了机器学习中优化过程的关键元素：成本函数、学习率和梯度下降。成本函数是目标，通过凹函数和凸函数的概念解释其性质。学习率决定了在梯度下降算法中每次迭代的步长，动态学习率有助于更快找到最优解。最后，梯度下降作为基础算法，确保在每次更新时成本函数减小，从而逐步逼近最小值。

摘要由CSDN通过智能技术生成

成本函数

我们在机器学习中最主要的目标是最小化成本函数，因此，将执行优化过程以最小化该成本函数。成本函数由下式给出：

为了深入了解成本函数的几何形状，让我们学习凹函数和凸函数：

凹函数

在凹函数g(x)中，对于x轴上的任意两个值，即a和b，点g(a)和g(b)之间的直线总是位于g(x)的下方。凹函数的最大值是一个导数为0的点

凸函数

凸函数具有相反的属性，凸函数的最小值是导数为0的点。

我们如何找到成本函数的最大值或最小值呢？

有两种查找成本函数的最小值或最大值的方法：

解析法:凹函数的最大值和凸函数的最小值是导数为0的点。在导数=0后所形成的方程易于求解之前，解析法是较好的方法。

爬山算法：该算法是一种综合算法，我们从可能的斜率(θs)的空间中的某个地方开始，然后不断改变斜率，以期接近最大值或最小值。现在，出现的问题是我应该增加θ(将θ向右移动)，还是应该减少θ(向左移动θ)以接近最佳值。在凸函数的情况下，我们可以求导数，如果导数为正，则需要增加θ，即向右移动，而如果导数为负，则减小θ。

t是迭代，α是学习率。

学习率

学习率决定了“爬山算法”中步长的大小。学习率有两种类型：

静态：静态学习率是在所有迭代过程中保持不变的速率。

动态：学习率是动态变化的，即最初在θ偏离最佳值时，α很大，并且随着我们接近最佳值而不断下降。

选择学习率

学习率不能太小，因为需要很多次迭代才能达到最小值。而且，学习率不能太大，因为它可能会错过最佳点。

更好的想法是选择动态学习率，该学习率随着时间的推移而降低，因为它允许算法快速识别该点。基本的降低学习率时间表如下：

理想情况下，对于凸函数，最优值出现在:

但是，在实践中需要设置阈值，该阈值定义了与最佳解“足够接近”的条件：

什么是梯度下降？

梯度下降用于实现爬山算法。为了理解梯度下降，让我们假设是否要最小化某些成本函数，这可能是许多变量的函数。为了简单起见，让我们假设C是两个变量的函数：

成本函数的变化由下式给出：

梯度向量(∇C)包含C相对于v的偏导数，即∇C使v的变化与C的变化相关：

将向量的变化(ΔV)和梯度向量(∇C)放在ΔC方程中：

我们需要以使ΔC为负的方式选择Δv。假设我们选择：

其中η是一个小的正参数(称为学习率)。那么ΔC可以写成：

因为∥∇C∥²≥0，所以保证了ΔC≤0，即，C将总是减小而从不增大。降低C是主要动机，因为我们希望尽可能降低成本。因此，我们以以下方式实现梯度：

梯度下降是机器学习的基础，因此必须了解该算法背后的数学知识才能真正理解机器学习模型的工作原理。此外，所有深度学习模型在反向传播过程中都使用梯度下降算法来更新权重和偏差。希望这篇文章能帮助您了解机器学习中的成本函数，学习率和梯度下降的一些基础知识。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。