神经网络与梯度下降算法之一

lch737171__

已于 2023-08-25 08:33:14 修改

阅读量110

点赞数

文章标签：神经网络算法人工智能

于 2023-08-25 08:28:11 首次发布

本文链接：https://blog.csdn.net/lch737171__/article/details/132380947

版权

神经网络与梯度下降算法

前言

从很大程度上来说，深度学习实际上是非常复杂的函数，包含数百万个参数，这些参数代表的是一个问题的数学解答。梯度下降算法是深度学习算法框架，主要作用是用以寻找最优参数，从而解决大量烦人的优化问题。学习过《高等数学》，尤其是《数值分析》的同学，掌握起来并不算困难。
有关梯度算法，资料汗牛充栋，这儿就不再赘述了，只是把自已学习中疑惑的地方记录下来，帮助自已学习的同时，希望也能给同行者以帮助。

梯度与代价函数

学习梯度时我们常看到下面这幅图。
在这里插入图片描述这幅图是二维图。图中的曲线代表的是代价函数，Ｗ是所求的参数。当代价函数取得最小值时，此时的Ｗ值也就是代价函数的最优解，为我们所求结果。此时的梯度是一阶导数。上图为三维图，图中的曲面为代价函数，此时需要优化的参数是Ｘ和Ｙ，Ｚ轴是代价函数。此时曲面的梯度可以看成是一个切面。
此时我产生了第一个疑问，什么是代价函数？

代价函数

假设二维平面内有一些散乱的点，如下表所示。

X	Y
1	4
2	5
3	5
4	2
5	4
6	7
7	8
8	8
9	12
10	11

我们用一次函数来进行拟合，这个一次函数就是预测函数，每一个输入x，根据Θ 计算得到预测的y值。
$h_{\Theta}\left ( x^{\left ( i \right )} \right )= \Theta _{0}\dotplus \Theta _{1}x_{1}^{\left ( i \right )}$

构造代价函数，此处选用均方误差代价函数。均方误差代价函数是代价函数的一种。
$J\left ( \Theta \right )= \frac{1}{2m}\sum_{i= 1}^{m}\left ( h\Theta \left ( x^{\left ( i \right )} \right )-y^{\left ( i \right )} \right )^{2}$
展开后：
$J\left ( \Theta \right )= \frac{1}{2m}\sum_{i= 1}^{m}\left ( \Theta _{0}+\Theta_{1} \left ( x^{\left ( i \right )} \right )-y^{\left ( i \right )} \right )^{2}$
此公式中：

m是数据集中点的个数，在此处，也就是我们构造的数集，是10。
½是一个常量，这样是为了在求梯度的时候，二次方求导正好有个２，就和这里的½抵消了，自然就没有多余的常数系数，方便后续的计算，同时对结果不会有影响
y 是数据集中每个点的真实y坐标的值

从上面的式子可以看：均方误差代价函数就是由所有数据点的预测值和实际值差的平方的平均值的一半构成的。在这个函数中有两个变量一个是Θ０和Θ１，x(ｉ)和y(ｉ) 是数据集中的，具有实际具体的值。

Θ０和Θ１取不同的值，预测函数预测值和真实值之间的误差就不同，代价函数的值也就不同，我们希望的当然是预测值和真实值两者之间误差最小了，此时也就是代价函数的取得最小值时。
从而这个问题就变：Θ０和Θ１取什么值时，代价函数取得极小值，从而获得最优预测函数。这个问题就变寻优问题，解决方法就是梯度下降算法。