深度学习基础-线性回归与神经网络中的后向传播计算

最新推荐文章于 2024-11-03 00:00:00 发布

woods_gao

最新推荐文章于 2024-11-03 00:00:00 发布

阅读量200

点赞数

分类专栏：深度学习机器学习文章标签：机器学习深度学习人工智能神经网络算法

本文链接：https://blog.csdn.net/g1l1s1/article/details/106901553

版权

深度学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

线性回归与神经网络中的后向传播计算

线性回归与神经网络中的后向传播计算

线性回归与神经网络中的后向传播计算

本文主要参考花书, 中文翻译deeplearningbook-chinese

线性回归的求导

线性回归的定义

线性回归是将向量 $\in \Bbb{R}^n$ 作为输入，预测标量 $\in \Bbb{R}$ 作为输出的线性函数，表示为：
$\hat{y}=w^{\top}x$
$\hat{y}=\sum_{i=1}^nw_ix_i$
其中 $\hat{y}$ 为模型预测的 $y$ ， $\in \Bbb{R}$ 是参数向量，可以把 $w$ 理解为 $x$ 中各元素对 $\hat{y}$ 影响的占比，也称权重。

线性回归的优化方法

大多数深度学习算法都涉及某种形式的优化。优化指的是改变 $x$ 以最小化或最
大化某个函数 $f (x)$ 的任务。我们通常以最小化 $f (x)$ 指代大多数最优化问题。最大
化可经由最小化算法最小化 $- f (x)$ 来实现。
我们把要最小化或最大化的函数称为目标函数（objective function）或准则
（criterion）。当我们对其进行最小化时，我们也把它称为代价函数（cost function）、
损失函数（loss function）或误差函数（error function）。
假设我们有一个函数 $y = f (x)$ ，其中 $x$ 和 $y$ 是实数。这个函数的导数（derivative）记为 $f^{'} (x)$ 或 $\frac {dy}{dx}$ 。导数 $f^{'} (x)$ 代表 $f (x)$ 在点 $x$ 处的斜率。换句话说，它表明如何缩放输入的小变化才能在输出获得相应的变化： $\approx f(x) + \epsilon f'(x)$ 。
因此导数对于最小化一个函数很有用，因为它告诉我们如何更改 $x$ 来略微地改善 $y$ 。例如，我们知道对于足够小的 $\epsilon$ 来说， $\epsilon sign(f'(x)))$ 是比 $f (x)$ 小的。因此我们可以将 $x$ 往导数的反方向移动一小步来减小 $f (x)$ 。这种技术被称为梯度下降（gradient descent）(Cauchy, 1847)。
需要注意的是，在这里的 $f (x)$ 和 $x$ 分别是指的损失函数和损失函数的输入项 $\hat{y}$ ，而使用链式求导求解线性回归时，最终要得到的是损失函数对权重 $w$ 的偏导。

线性回归的求导

有了梯度下降法后线性回归的优化就变的简单了，只需要求解目标函数 $f (x)$ 对 $x$ 的偏导 $\nabla xf(x)$ 并使 $x$ 减去 $\epsilon \nabla xf(x)$ 即可，以常见的损失函数MSE为例：
$f(x)=(Ax-b)^2$
$\nabla xf(x) = A^\top (Ax − b) = A^\top Ax − A^\top b$
$x\leftarrow x - \epsilon \nabla xf(x)$