吴恩达深度学习课程-第二周

最新推荐文章于 2024-05-23 20:49:54 发布

J___code

最新推荐文章于 2024-05-23 20:49:54 发布

阅读量212

点赞数

分类专栏：深度学习文章标签：深度学习计算图逻辑回归广播反向传播

本文链接：https://blog.csdn.net/qq_41398418/article/details/125314110

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.二分类

为了保存一张图片，需要保存三个矩阵，它们分别对应图片中的红、绿、蓝三种颜色通道，假设图片大小为 $64 * 64$ (下图采用 $5 * 4$ 表示)，要用一个特征向量 $x$ 表示该图片，则要将图片中每个像素值转换为 $x$ 的一个维度，此时的维度大小为 $12288 = 64 * 64 * 3$ ：

在这里插入图片描述

可以将该特征向量 $x$ 输入到分类器(如逻辑回归模型)中，对图片是不是猫进行判断。下面对后续用到的符号进行梳理：

$x$ ：输入数据，维度为 $n_x,1)$
$y$ ：输出结果，取值为 $(0, 1)$
$x^{(i)},y^{(i)})$ ：第 $i$ 组数据
$X=[x^{(1)}、x^{(2)}、...x^{(m)}]$ ：表示所有训练集的输入值，维度为 $n_x*m_{train}$
$Y=[y^{(1)}、y^{(2)}、...y^{(m)}]$ ：表示所有训练集的输出值，维度为 $1*m_{train}$

2.逻辑回归

参考之前博客吴恩达机器学习课程-第三周中1.1-1.2节

3.逻辑回归的代价函数

参考之前博客吴恩达机器学习课程-第三周中1.4节

4.梯度下降

参考之前博客吴恩达机器学习课程-第一周中3.3节

5.计算图

神经网络的计算都是按照前向或反向传播过程组织的。首先计算出一个网络的输出(即前向过程)，接着进行反向传输操作(即计算出对应的梯度)，而计算图解释了为什么用这种方式组织这些计算过程

假设函数 $J = 3 (a + b c)$ 。在前向传播中，令 $u = b c; v = a + v; J = 3 v$ ，给定数值后即可计算出 $J$ 的值：

在这里插入图片描述

5.1 使用计算图求导数

上图中知道了前向传播的过程，该如何利用该过程求出 $J$ 的导数?

首先计算 $\frac{dJ}{dv}$ ，很明显该值为 $3$
此时计算 $\frac{dJ}{da}$ ，该式可以理解为提高 $a$ 的值对 $J$ 的值有多大的影响：将 $a = 5$ 增加为 $a = 5.001$ ，则 $v = 11$ 变为 $v = 11.001$ ，最终 $J = 33$ 变为 $J = 33.003$ ，所以 $\frac{dJ}{da}=3$ 。整个流程的变化可以理解为 $\frac{dJ}{da}=\frac{dJ}{dv}\frac{dv}{da}$ (即链式法则)，为了简化表达将 $\frac{dJ}{da}$ 表示为 $d a$
其他变量的导数 $d b 、 d c 、 d u$ 的计算与上述步骤类似

在这里插入图片描述

5.2逻辑回归中的梯度下降

假设一个样本有两个特征 $x_1、x_2$ ，目标函数为 $L (a, y) = - (y (l o g (a)) + (1 - y) l o g (1 - a))$ 。为了更新梯度需要计算出 $\frac{\partial L(a,y)}{\partial w}$ 和 $\frac{\partial L(a,y)}{\partial b}$ ：

首先计算 $\frac{\partial L(a,y)}{\partial a}=-y/a+(1-y)/(1-a)$
下面计算 $\frac{\partial L(a,y)}{\partial z}=\frac{\partial L(a,y)}{\partial a}\frac{\partial a}{\partial z}=(-y/a+(1-y)/(1-a))*(a(1-a))=a-y$
最后计算 $\frac{\partial L(a,y)}{\partial w1}=\frac{\partial L(a,y)}{\partial z}\frac{\partial z}{\partial w1}=x_1(a-y)$ 、 $\frac{\partial L(a,y)}{\partial w2}=x2(a-y)$ 和 $\frac{\partial L(a,y)}{\partial b}=a-y$

在这里插入图片描述

上述过程针对的是一个样本的梯度下降，对于 $m$ 个样本的梯度下降，目标函数为 $J(w,b)=\frac{1}{m}\sum_{i=1}^mL(a^{(i)},y^{(i)})$ 。在下面代码中，上标 $(i)$ 表示当前样本上标：

在这里插入图片描述

上述代码的实现如果直接使用for循环效率是很低的，此时可以使用python库中向量化进行计算，将上面代码通过向量化后代码变得很简洁：

在这里插入图片描述

6.Python中的广播

总结后如下图：

在这里插入图片描述

注意：在每次创建一个数组时，尽量让它成为一个列/行向量。比如随机初始化一个大小为5的数组时，最好用 $a = n p . r a n d o m . r a n d n (5, 1)$ ，而不是 $a = n p . r a n d o m . r a n d n (5)$

7.逻辑回归损失函数的解释

在逻辑回归中，当真实标签 $y = 1$ 时，预测值 $\hat y=p(y|x)$ ；当真实标签 $y = 0$ 时，预测值 $\hat y=1-p(y|x)$ ，对这两个式子进行如下处理：

将上面两个式子合并为 $p(y|x)=\hat y^y(1-\hat y)^{1-y}$ (分别将 $y = 0$ 和 $y = 1$ 代入该式即可还原为原来的两个式子)
因为 $l o g$ 函数是单增函数，所以最大化 $p (y ∣ x)$ 等价于最大化 $log(p(y|x))=ylog\hat y+(1-y)log(1-\hat y)$

处理后的式子就是单个样本的目标函数 $L(\hat y,y)$ 取负值，取负值原因是因为目标函数是最小化损失，而 $l o g (y ∣ x)$ 是要最大化输出概率。对于 $m$ 个样本，假设它们服从同一分布且相互独立，则 $log\prod_{i=1}^m p(y^{(i)}|x^{(i)})=\sum_{i=1}^mlog p(y^{(i)}|x^{(i)})=\sum_{i=1}^m -L(y^{(i)}|x^{(i)})=-mJ(w,b)$