梯度下降原理及理解

最新推荐文章于 2024-08-22 16:52:45 发布

zealscott

最新推荐文章于 2024-08-22 16:52:45 发布

阅读量9.6k

点赞数 5

分类专栏：神经网络文章标签：数据科学梯度下降神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crazy_scott/article/details/79780885

版权

本文深入探讨梯度下降在神经网络中的应用，解释为什么使用梯度下降来最小化代价函数，以及批处理梯度下降（BGD）和随机梯度下降（SGD）的工作原理。通过讨论学习速率的影响，阐述了如何选择合适的梯度下降策略以优化模型性能。

摘要由CSDN通过智能技术生成

梯度下降是神经网络中最常用的求极值点（鞍点）的方法，本文以BP神经网络为例，介绍梯度下降的数学原理及推广。

代价函数

为了量化我们神经网络的拟合效果，我们定义一个代价函数：

C (w, b) = 1 2 n \sum x | | y (x) - a | | 2

$C(w,b) = \frac {1}{2n}\sum\limits_{x}||y(x)-a||^2$

我们训练算法的目的，就是最小化权值和偏置的代价函数 $C(w,b)$ 。

针对代价函数，我们试着回答以下两个问题：

为什么不直接采用分类（识别）正确的数量作为评价指标呢？

这是因为在神经网络中，被正确分类的图像数量所关于权值和偏置的函数并不是一个平滑的函数。

大多数情况下，对权值和偏置的微小变动完全不会影响被正确分类的图像数量，这让我们很难去解决如何改变权重和偏置来取得进改进的性能。
为什么要用二次函数呢？

代价函数并不是唯一的，不同的代价函数的评价指标也是不同的。但二次函数是使用得最广泛的，并且具有特殊的语义–均方误差（MSE）。我们接下来还会看到更多的代价函数，在计算时就会知道二次函数的优越性了。

为什么要梯度下降？

我们现在的目标是想要找到 $C$ 的全局最小值。当然，对于简单的二次型函数，我们很快就能找到最小值。但回想一下我们是怎么做的呢？

一种方法就是直接用偏导去找极值点。但如果变量很多，比如神经网络至少有上千个变量和偏置，计算非常复杂。

另外一种方法是使用梯度下降。考虑我们目前有两个变量 $v_1，v_2$ ，当我们在 $v_1和v_2$ 方向分别移动一个很小的量（沿着梯度方向），这时候会发生如下变化：

Δ C \approx \partial C \partial v 1 Δ v 1 + \partial C \partial v 2 Δ v 2

$\Delta C\approx \frac{\partial C}{\partial v_1}\Delta v_1 +\frac{\partial C}{\partial v_2}\Delta v_2$

我们需要使用一种方法选择

最低0.47元/天解锁文章

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zealscott CSDN认证博客专家 CSDN认证企业博客

码龄7年

196: 原创

3万+: 周排名

199万+: 总排名

69万+: 访问

: 等级

6978: 积分

317: 粉丝

386: 获赞

118: 评论

1744: 收藏

私信

关注

热门文章

分类专栏

最新评论

KMP算法详解（C++实现）
2401_84256088: 又臭又长还有错，看我写的 /** * @param s 待匹配的字符串 * @param p 模式串 * @return s是否包含p * next[j]表示以p[j]结尾的子串，的最长相等先后缀的长度 */ bool kmp (const string &s, const string &p) { int n = s.size(), m = p.size(), next[m], i, j, k; next[0] = 0; for (j = 1; j < m; j++) { for (k = next[j-1]; k && p[j] != p[k]; k = next[k - 1]); next[j] = p[j] == p[k] ? k + 1 : 0; } for (i = 0, j = 0; i < n && j < m;) { if (s[i] == p[j]) i++, j++; else j = next[j]; } return j == m; }
矩阵求导法则与性质
Jerry fk: 我也在纠结这玩意儿，我刚看了定义，他那个刚好写反了
hexo下LaTeX无法显示的解决方案
风翼飞镰: 这是关键啊:CDN地址！
python plot hist 密度图概率和不为1
尚未填写: 有用，感谢！想要绘制多组数据的概率图的话，只需把不同的weights添加到一个列表即可，比如： x_value = [train_points, test_points] train_weights = np.ones_like(train_points)/float(len(train_points)) test_weights = np.ones_like(test_points)/float(len(test_points)) weights = [train_weights, test_weights] plt.hist(x_value, bins=10, histtype="bar", alpha=0.5, label=["training set", "test set"], weights=weights) plt.legend() plt.show()
根据坐标点位置计算方位角（python实现）
Auto_yaoyao: 请问你计算的方位角是地面的？是当前时刻还是下一时刻

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。