李宏毅2022《机器学习/深度学习》——学习笔记（3）

dotJunz

已于 2022-12-07 10:03:12 修改

阅读量1.2k

点赞数

分类专栏：深度学习文章标签：深度学习

于 2022-10-15 10:33:41 首次发布

本文链接：https://blog.csdn.net/m0_46283220/article/details/127179427

版权

深度学习专栏收录该内容

24 篇文章 4 订阅

订阅专栏

文章目录

DNN Training Procedure
深度学习简介
Backpropagation（反向传播）
参考资料

DNN Training Procedure

在这里插入图片描述
上图所示是 Pytorch 中训练 DNN 的概述，首先是 Define Neural Network、Loss Function、Optimizer，这三步用到了 torch.nn 和 torch.optim 模块。加载数据主要用到 torch.utils.data.Dataset 和 torch.utils.data.DataLoader 模块。反复进行训练和验证，最后得到模型进行测试。

深度学习简介

神经网络是一个函数

在这里插入图片描述
如果参数已知，那么一个神经网络就是一个 function

在这里插入图片描述
如果只是给出了一个网络结构，并没有确定参数，那么就是定义了一个函数的集合。

在这里插入图片描述
Layer1 的所有输出都与 Layer2 的所有输入连接，所以叫全连接。
Layer1 的输出给 Layer2，Layer2 的输出给 Layer3，所以叫前馈网络。

神经网络中的矩阵运算

神经网络的计算可以用矩阵操作来表示，如下图是一个计算例子。
在这里插入图片描述

在这里插入图片描述
如上图所示，是深度神经网络用矩阵计算的过程， $\sigma$ 是激活函数。

在这里插入图片描述

一个深度神经网络可以表示成一个函数，它的函数表达式如上图所示。写成矩阵运算的好处是可以用 GPU 加速，普通的 GPU 只是做矩阵运算比较快（相比 CPU）。

手写体识别例子

在这里插入图片描述
上图是一个简单的例子，输入是一个手写体数字的图像，对应一个长度为 256 的一维矩阵。输出是一个长度为 10 的一维矩阵，每个位置对应一个数字的概率，认为概率最大的那个数字就是最终的预测结果。

在这里插入图片描述
如上图所示，输入是一个长度为 256 的一维矩阵，输出是一个长度为 10 的一维矩阵，把输入转化为输出的函数就是神经网络。

Backpropagation（反向传播）

在这里插入图片描述
backpropagation（反向传播），就是 gradient descent，它能够高效地计算百万维的一维矩阵的梯度。

看了两遍以后，我发现 backpropagation 之所以高效，是利用了动态规划的思想。之所以说是利用了动态规划的思想，而不是动态规划，是因为这个问题是求梯度，是一个确定的值，而动态规划是求最值的，但是思路是一样的。

在这里插入图片描述
如上图所示，求 $\frac{\partial z}{\partial w}$ 是 Forward pass，求 $\frac{\partial C}{\partial z}$ 是 Backward pass。

求 $\frac{\partial C}{\partial z}$ 的过程可以画成以下递归树，递归边界是输出层。如果直接计算时间复杂度很高，因为存在大量重复计算，也就是重叠子问题。比如计算到 $a_1$ 需要 $b_1,b_2,b_3$ 三个子问题的结果，计算 $a_2,a_3$ 时也需要用到 $b_1,b_2,b_3$ 三个子问题的结果。这时就可以考虑利用动态规划的思想，增加备忘录记忆化搜索或从后往前推。减少了大量重复计算，就是 backpropagation 高效的原因。