Ng深度学习笔记神经网络编程基础

最新推荐文章于 2021-06-02 20:02:27 发布

CeciliaFinch

最新推荐文章于 2021-06-02 20:02:27 发布

阅读量232

点赞数

原文链接：http://www.ai-start.com/dl2017/html/lesson1-week2.html#header-n4

版权

神经网络编程基础

二分类(Binary Classification)
- 如何将训练样本（输入向量 $X$ 的集合）表示为一个矩阵
逻辑回归
逻辑回归中的梯度下降（Logistic Regression Gradient Descent）
- 单个样本，两个特征
- m 个样本的梯度下降(Gradient Descent on m Examples)
向量化逻辑回归
向量化 logistic 回归的梯度输出（Vectorizing Logistic Regression's Gradient）

二分类(Binary Classification)

一张图片在计算机中的表示：
三个矩阵，分别对应图片中的红、绿、蓝三种颜色通道，如果图片大小为64x64像素，那么就有三个规模为64x64的矩阵。
为了便于表示，画了三规模为5x4的矩阵
在这里插入图片描述

如何将训练样本（输入向量 $X$ 的集合）表示为一个矩阵

把像素值放到一个特征向量 $x$ 中：
64乘以64乘以3=12288，这是三个像素矩阵中像素的总量， $n_x=12,288$ ，预测输出结果 $y$ 为1还是0。

符号定义：

$x$ ：表示一个 $n_x$ 维数据，为输入数据，维度为 $n_x,1)$ ；

$y $ ：表示输出结果，取值为 $(0, 1) $ ；

$x^{(i)},y^{(i)})$ ：表示第 $i$ 组数据，可能是训练数据，也可能是测试数据，此处默认为训练数据；

$X=[x^{(1)},x^{(2)},...,x^{(m)}]$ ：表示所有的训练数据集的输入值，放在一个 $n_x×m$ 的矩阵中，其中 $m$ 表示样本数目;

$Y=[y^{(1)},y^{(2)},...,y^{(m)}]$ ：对应表示所有训练数据集的输出值，维度为 $1 \times m$ 。

定义一个矩阵用大写 $X$ 的表示，它由输入向量 $x^{(1)}$ 、 $x^{(2)}$ 等组成，把 $x^{(1)}$ 作为第一列放在矩阵中， $x^{(2)}$ 作为第二列， $x^{(m)}$ 放到第 $m$ 列，然后我们就得到了训练集矩阵 $X$ 。
这个矩阵有 $m$ 列， $m$ 是训练集的样本数量，矩阵的高度记为 $n_x$ 。

$X$ 是一个规模为 $n_x$ 乘以 $m$ 的矩阵，即X.shape等于 $n_x,m)$ ， $X$ 是一个规模为 $n_x$ 乘以 $m$ 的矩阵。所以综上所述，这就是如何将训练样本（输入向量 $X$ 的集合）表示为一个矩阵。

输出标签 $y$ 同理。Y.shape等于 $(1, m)$ ，表示这是一个规模为1乘以 $m$ 的矩阵。
在这里插入图片描述

逻辑回归

逻辑回归学习算法适用于二分类问题

Hypothesis Function（假设函数）。

产生输出预测值 $\hat{y}$ ：
1、 $\hat{y}={{w}^{T}}x+b$
2、sigmoid= $\sigma \left( z \right)=\frac{1}{1+{{e}^{-z}}}$
在这里插入图片描述

代价函数

逻辑回归中的损失函数： $L\left( \hat{y},y \right)=-y\log(\hat{y})-(1-y)\log (1-\hat{y})$

在这门课中有很多的函数效果和现在这个类似，就是如果 $y$ 等于1，我们就尽可能让 $\hat{y}$ 变大，如果 $y$ 等于0，我们就尽可能让 $\hat{y}$ 变小。
损失函数----单个训练样本
代价函数----全部训练样本：对 $m$ 个样本的损失函数求和然后除以 $m$ : $J\left( w,b \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{L\left( {{{\hat{y}}}^{(i)}},{{y}^{(i)}} \right)}=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( -{{y}^{(i)}}\log {{{\hat{y}}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{{\hat{y}}}^{(i)}}) \right)}$

梯度下降法（Gradient Descent）

梯度下降法：通过最小化代价函数（成本函数） $J (w, b)$ 来训练的参数 $w$ 和 $b$
细节化说明：
在这里插入图片描述

逻辑回归中的梯度下降（Logistic Regression Gradient Descent）

单个样本，两个特征

在这里插入图片描述

$\frac{dL(a,y)}{da}=-y/a+(1-y)/(1-a)$
$\frac{dL(a,y)}{dz}=\frac{dL}{dz}=(\frac{dL}{da})\cdot (\frac{da}{dz})$ 并且 $\frac{da}{dz}=a\cdot (1-a)$ ，而 $\frac{dL}{da}=(-\frac{y}{a}+\frac{(1-y)}{(1-a)})$ ，因此将这两项相乘，得到：

$\frac{{dL}(a,y)}{{dz}} = \frac{{dL}}{{dz}} = \left( \frac{{dL}}{{da}} \right) \cdot \left(\frac{{da}}{{dz}} \right) = ( - \frac{y}{a} + \frac{(1 - y)}{(1 - a)})\cdot a(1 - a) = a - y$

$d{{w}{1}}=\frac{1}{m}\sum\limits{i}^{m}{x_{1}^{(i)}}({{a}^{(i)}}-{{y}^{(i)}})$ $d{{w}{2}}=\frac{1}{m}\sum\limits{i}^{m}{x_{2}^{(i)}}({{a}^{(i)}}-{{y}^{(i)}})$
$db=\frac{1}{m}\sum\limits_{i}^{m}{({{a}^{(i)}}-{{y}^{(i)}})}$ 视频中， $d{{w}{1}}$ 表示 $\frac{\partial L}{\partial {{w}{1}}}={{x}{1}}\cdot dz$ ， $d{{w}{\text{2}}}$ 表示 $\frac{\partial L}{\partial {{w}{2}}}={{x}{2}}\cdot dz$ ， $d b = d z$ 。
因此，关于单个样本的梯度下降算法，你所需要做的就是如下的事情：使用公式 $d z = (a - y)$ 计算 $d z$ ，使用 $d{{w}{1}}={{x}{1}}\cdot dz$ 计算 $d{{w}{1}}$ ， $d{{w}{2}}={{x}{2}}\cdot dz$ 计算 $d{{w}{2}}$ ， $d b = d z$ 来计算 $d b$ ，然后: 更新 ${{w}{1}}={{w}{1}}-a d{{w}{1}}$ ，更新 ${{w}{2}}={{w}{2}}-a d{{w}{2}}$ ，更新 $b=b-\alpha db$ 。

在这里插入图片描述

m 个样本的梯度下降(Gradient Descent on m Examples)

在这里插入图片描述

向量化逻辑回归

在这里插入图片描述

z=np.dot(w,x)+b

输入矩阵 $X$ ： $n_x$ 行 $m$ 列。写为Python numpy的形式 $n_{x},m)$ 这只是表示 $X$ 是一个 $n_x$ 乘以 $m$ 的矩阵 $R^{n_x \times m}$

为了计算 $W^{T}X+[b b ... b]$ ，numpy命令是 $Z = n p . d o t (w . T, X) + b$ Python中广播(brosdcasting):
$b$ 是一个实数，但是当将这个向量加上这个实数时，Python自动把这个实数 $b$ 扩展成一个 $1\times m$ 的行向量。

$A=[a^{(1)} a^{(2)} ... a^{(m)}]=\sigma (Z)$

向量化 logistic 回归的梯度输出（Vectorizing Logistic Regression’s Gradient）

注：本节中大写字母代表向量，小写字母代表元素

如何同时计算 $m$ 个数据的梯度，并且实现一个非常高效的逻辑回归算法**(Logistic Regression**)。

向量化dw,db的迭代

首先我们来看 $d b$ ，不难发现 $db=\frac{1}{m}\sum_{i=1}^{m}dz^{(i)}$ ，之前的讲解中，我们知道所有的 $dz^{i)}$ 已经组成一个行向量 $d Z$ 了，所以在Python中，我们很容易地想到 $db=\frac{1}{m}np.sum(dZ)$ ；接下来看 $d w$ ，我们先写出它的公式 $dw=\frac{1}{m}Xdz^{T}$ 其中， $X$ 是一个行向量。因此展开后 $dw=\frac{1}{m}(x^{(1)}dz^{(1)}+x^{(2)}dz^{(2)}+...+x^{m}dz^{m})$ 。因此我们可以仅用两行代码进行计算： $db=\frac{1}{m}*np.sum(dZ)$ ， $dw=\frac{1}{m}Xdz^{T}$ 。这样，我们就避免了在训练集上使用for循环。

现在，让我们回顾一下，看看我们之前怎么实现的逻辑回归，可以发现，没有向量化是非常低效的，如下图所示代码：

我们的目标是不使用for循环，而是向量，我们可以这么做：

$Z = w^{T}X + b = np.dot( w.T,X)+b$

$\sigma( Z )$

$d Z = A - Y$

$\frac{1}{m}Xdz^{T}\ }$

$\frac{1}{m}*np.sum( dZ)$

$w : = w - a * d w$

$b : = b - a * d b$

如果希望多次迭代进行梯度下降，那么仍然需要for循环。

CeciliaFinch

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Ng深度学习笔记神经网络编程基础

神经网络编程基础二分类(Binary Classification)如何将训练样本（输入向量XXX的集合）表示为一个矩阵逻辑回归Hypothesis Function（假设函数）。代价函数梯度下降法（Gradient Descent）逻辑回归中的梯度下降（Logistic Regression Gradient Descent）单个样本，两个特征m 个样本的梯度下降(Gradient Descent on m Examples)向量化逻辑回归向量化 logistic 回归的梯度输出（Vectorizing
复制链接

扫一扫