张量运算的导数：梯度

最新推荐文章于 2024-04-20 12:17:45 发布

江西师范大学-20届-吴悠

最新推荐文章于 2024-04-20 12:17:45 发布

阅读量2.6k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_39905917/article/details/104665450

版权

本文探讨了张量运算的导数——梯度，以及在深度学习中的应用。介绍了随机梯度下降法用于寻找损失函数最小值的基本思想，以及链式求导在反向传播算法中的作用，解释了如何通过反向传播计算神经网络中每个参数对损失值的影响。

摘要由CSDN通过智能技术生成

梯度（gradient）是张量运算的导数。它是导数这一概念向多元函数导数的推广。多元函数是以张量作为输入的函数。
假设有一个输入向量 x、一个矩阵 W、一个目标 y 和一个损失函数 loss。你可以用 W 来计算预测y_pred，然后计算损失，或者说预测值 y_pred 和目标 y 之间的距离。
y_pred = dot(W, x)
loss_value = loss(y_pred, y)
如果输入数据 x 和 y 保持不变，那么这可以看作将 W 映射到损失值的函数。
loss_value = f(W)
假设 W 的当前值为 W0。f 在 W0 点的导数是一个张量 gradient(f)(W0)，其形状与 W 相同，每个系数 gradient(f)(W0)[i, j] 表示改变 W0[i, j] 时 loss_value 变化的方向和大小。
张量 gradient(f)(W0) 是函数 f(W) = loss_value 在 W0 的导数。前面已经看到，单变量函数 f(x) 的导数可以看作函数 f 曲线的斜率。同样，gradient(f)(W0) 也可以看作表示 f(W) 在 W0 附近曲率（curvature）的张量。

随机梯度下降

给定一个可微函数，理论上可以用解析法找到它的最小值：函数的最小值是导数为 0 的点，因此你只需找到所有导数为 0 的点，然后计算函数在其中哪个点具有最小值。
将这一方法应用于神经网络，就是用解析法求出最小损失函数对应的所有权重值。可以通过对方程 gradient(f)(W) = 0 求解 W 来实现这一方法。这是包含 N 个变量的多项式方程，其中 N 是网络中系数的个数。