深度学习系列——反向传播

最新推荐文章于 2024-07-10 23:53:11 发布

number59

最新推荐文章于 2024-07-10 23:53:11 发布

阅读量146

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/number59/article/details/96009622

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

什么是机器学习

“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E.”
一个电脑程序要完成任务（T），如果程序获取的关于（T）的经验（E）越多就表现（P）得越好，那么我们就可以说这个程序‘学习’了关于（T）的经验。

Tom Mitchell总结的可以说是非常到位了。从这个定义出发机器学习涉及4个方面：

任务（T）：需要完成的工作，一般是对新数据的预测（分类或回归）。
程序（或模型）：用来完成任务的工具。
经验（E）：也就是我们通常所说的数据。
表现（P）：计算预测值与实际值的差距得到的指标（精确率、召回率、 $F_1$ Score）。

机器学习的过程

对于特定任务，构建模型
$y=f_\theta(x)\tag{1.1}$ 其中 $x$ 是输入， $y$ 是输出， $\theta$ 是参数。
利用历史数据 $X_{his}$ ，优化模型，选择合适的参数 $\theta$ 。
预测新的数据（机器没有学习的数据） $X_{new}$ 得到预测结果 $Y_{new}$ 并评估预测情况。

梯度下降法

因为机器学习的评估需要用到新的数据 $X_{new}$ ，而机器在学习的过程中只能看见 $X_{his}$ ，因此需要建立只依赖训练数据以及模型参数的评价标准，也就是目标函数 $J(x,\theta)$ （训练集 $X_{his}$ 可以看做是不变的，所以可以记作 $J(\theta)$ ）。

有了目标函数，机器学习就成为了最优化问题，学习的过程就是最小化目标函数 $J(\theta)$ 。

因为 $X_{his}$ 和 $\theta$ 的维数很大，不能直接得到最优解，因此只能通过间接方法逐步减小 $J(\theta)$ 。梯度下降法正是间接得到最优解的方法。

梯度下降法步骤

$t = 0$ ，随机初始化参数 $\theta_0$
$t = t + 1$
计算目标函数 $J$ 关于参数 $\theta$ 的导数 $\Delta_t = \frac{\partial J}{\partial \theta_{t-1}}$
更新参数 $\theta_{t} = \theta_{t-1} - \lambda\Delta_{t-1}$
如果找到最优解，结束；否则，执行步骤2

深度学习

“Deep learning is a particular kind of machine learning that achieves great power and flexibility by learning to represent the world as nested hierarchy of concepts, with each concept defined in relation to simpler concepts, and more abstract representations computed in terms of less abstract ones.”
深度学习是一种特殊的机器学习，通过学习将世界表示为概念的嵌套层次，其中每个抽象的概念都由更简单、更具体的概念表示，从而获得巨大的能力和灵活性。

深度学习属于机器学习的一个子领域，它的模型是网络结构。

深度学习与传统的机器学习的区别在于：

能够构建具备大量参数的模型。
可以表示不同粒度的抽象特征。
模型构建简单。

反向传播

深度学习模型的目标函数一般为
$J(\theta)=L(\theta)+\lambda||\theta||_k\tag{1.2}$

其中， $L(\theta)$ 是损失函数，表示预测值与实际值的误差； $\lambda||\theta||_k$ 是正则项，用于约束参数。

令 $R(\theta)=\lambda||\theta||_k$

则有
$\frac{\partial J}{\partial \theta}=\frac{\partial L}{\partial \theta}+\frac{\partial R}{\partial \theta}$

其中， $\frac{\partial R}{\partial \theta}$ 可根据微分公式直接得到。

一般的深度学习模型结构可以表示如下：
神经网络模型图
$x$ 表示输入， $h_i$ 表示第 $i$ 个隐藏层， $y$ 表示输出。

很多网络模型可能比图示的模型要复杂很多，但是它们都有一个共同点：网络模型是有向的不循环图，有起点（输入 $x$ ）和终点（输出 $y$ ），节点之间存在依赖的传递关系。
令 $n_j$ 表示节点， $S_j$ 表示节点的集合，并且假设
$n_1=\varphi_1(n_2, S_1)$ $n_2=\varphi_2(n_3, S_2)$ 即节点 $n_1$ 依赖于节点 $n_2$ ，节点 $n_2$ 依赖于节点 $n_3$ 。
则对于节点 $n_1$ 、 $n_2$ 和 $n_3$ ，有
$n_1, n_2, n_3\notin S_1$ $n_1,n_2,n_3\notin S_2$ 所以更复杂的模型也满足下面的推导。

令 $h_0=x$ ， $h_{m+1}=y$ ，则参数 $\theta_i(i=0,1,\cdots,m)$ 表示从 $h_i$ 层到下一层的参数，且层与层之间的关系可以表示为
$h_{i+1}=f_m(hi,\theta_i)\tag{1.3}$ 由此，有
$y=f_m(h_m,\theta_m)$

$L(\theta)$ 表示模型输出 $y$ 与实际值 $\hat y$ 的误差，因此有
$L=E(y)\tag{1.4}$

即
$L=E(f_m(h_m,\theta_m))$

由链式法则，有
$\frac{\partial L}{\partial \theta_m}=\frac{\partial L}{\partial y}\cdot\frac{\partial y}{\partial \theta_m}\tag{1.5}$

即
$\frac{\partial L}{\partial \theta_m}=\frac{\partial L}{\partial h_{m+1}}\cdot\frac{\partial h_{m+1}}{\partial \theta_m}$

同理可以得到，对 $\forall i=0,1,\cdots,m-1$ ，有
$\frac{\partial L}{\partial \theta_i}=\frac{\partial L}{\partial h_{i+1}}\cdot\frac{\partial h_{i+1}}{\partial \theta_i}\tag{1.6}$