01.神经网络和深度学习 —— week2 神经网络基础

最新推荐文章于 2022-07-28 20:52:14 发布

涛涛酱

最新推荐文章于 2022-07-28 20:52:14 发布

阅读量260

点赞数

分类专栏：深度学习深度学习课程——吴恩达吴恩达——深度学习课程文章标签：深度学习 Andrew Ng 神经网络

本文链接：https://blog.csdn.net/iCode_girl/article/details/86670835

版权

深度学习同时被 3 个专栏收录

26 篇文章 1 订阅

订阅专栏

深度学习课程——吴恩达

24 篇文章 0 订阅

订阅专栏

吴恩达——深度学习课程

23 篇文章 1 订阅

订阅专栏

2.1 二分类问题

1. 两个问题

实现神经网络如果遍历训练集，不需要用for循环；
为什么神经网络的计算过程可以分为前向传播和后向传播；

2. 给出几个符号及含义

样本 $(x, y)$ ，训练样本包括m个；
$x∈R^{n_{x}}$ ，表示样本x包含 $n_{x}$ 个特征（hight * width * channel）；
$y \in (0, 1)$ ，目标值属于0,1分类；
训练数据： ${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), ... , (x^{(m)}, y^{(m)})}$ ；
$X = [ x^{(1)}, x^{(2)} , ... , x^{(m)}]，X.shape = (n_{x}, m)$ ；
$Y = [ y^{(1)}, y^{(2)}, ... , y^{(m)} ]，Y.shape = (1, m)$ ；

2.2 Logistic Regression

$l o g i s t i c r e g r e s s i o n$ 用于二分类问题的监督学习；
分类任务中： $G i v e n$ $x$ , $w a n t$ $\widehat{y}=P(y=1|x)$ ，其中 $\in R^{n_{x}}$ ， $\in \{0, 1\}$ ， $\widehat{y}\in[0, 1]$ ；
Parameters： $\in R^{n_{x}}$ ， $b\in R$ ；
计算 $\widehat{y}=w^{T}x+b$ ，引入sigmoid函数限制 $\widehat{y}$ 取值范围： $\widehat{y}=sigmoid(w^{T}x+b)=\sigma(w^{T}x+b)$ ；
$\sigma(z)=\frac{1}{1+e^{-z}}$ ， $\sigma'(z)=\sigma(z)(1-\sigma(z))$ ；
$s i g m o i d$ 函数图像：

- 梯度消失问题；

2.3 Logistic Regression cost function

为了训练 $l o g i s t i c$ 回归模型的参数 $w$ 以及 $b$ ，需要定义一个成本函数。

1. recap

$\widehat{y}^{(i)}=\sigma(w^{T}x^{(i)}+b)$ $w h e r e$ $\sigma(z^{(i)})=\frac{1}{1+e^{-z^{(i)}}}$ ， $z^{(i)}=w^{T}x^{(i)}+b$
$G i v e n$ $X = \{x^{(1)}, x^{(2)} , ... , x^{(m)} \}$ ， $w a n t$ $\widehat{y}^{(i)}\thickapprox y^{(i)}$

2. loss (error) function

一般使用平方误差函数 $(s q u a r e d$ $e r r o r ）$ ： $L(\widehat{y}, y)= \frac{1}{2}(\widehat{y}-y)^{2}$ ，但在logistic regression里，一般不用平方误差作为loss function，因为平方误差损失函数一般是非凸函数，使用梯度下降时，容易得到局部最优解，而不是全局最优。
$l o g i s t i c r e g r e s s i o n 的 l o s s f u n c t i o n$ ： $L(\widehat{y}, y)= -(ylog\widehat{y}+(1-y)log(1-\widehat{y}))$
当 $y = 1$ 时， $L(\widehat{y}, y)= -log\widehat{y}$ ： $\widehat{y}\rightarrow1$ 时， $L(\widehat{y}, y)\thickapprox0$ ，表示预测效果越好； $\widehat{y}\rightarrow0$ 时， $L(\widehat{y}, y)\thickapprox\infin$ ，表示预测效果越差；
当 $y = 0$ 时， $L(\widehat{y}, y)=-log(1-\widehat{y}))$ ： $\widehat{y}\rightarrow0$ 时， $L(\widehat{y}, y)\thickapprox0$ ，表示预测效果越好； $\widehat{y}\rightarrow1$ 时， $L(\widehat{y}, y)\thickapprox\infin$ ，表示预测效果越差；
$l o s s f u n c t i o n$ 是在单个训练样本中定义的，衡量了算法在单个训练样本上的表现。

3. Cost Function

衡量参数 $w$ 和 $b$ 在全体训练样本上的表现，是所有训练样本的 $l o s s f u n c t i o n$ 之和。
$J(w,b)=\frac{1}{m}\sum_{i=1}^mL(\widehat{y}^{(i)}, y^{(i)})=-\frac{1}{m}\sum_{i=1}^m[(ylog\widehat{y}+(1-y)log(1-\widehat{y}))]$
$C o s t F u n c t i o n$ 是关于参数 $w ， b$ 的函数，我们的目标是迭代计算出最佳的 $w 和 b$ 的值，最小化 $C o s t F u n c t i o n$ ，使其尽可能趋近于0。

2.4 梯度下降法

使用梯度下降法来训练或学习得到训练集上的参数 $w$ 和 $b$ ，使 $c o s t$ $f u n c t i o n$ 最小。

${ repeat:\{$
                       $w=:w-\alpha\frac{\delta J(w,b)}{\delta w}$
                        $b-\alpha\frac{\delta J(w,b)}{\delta b}$
                 $\}$
在程序代码中通常使用 $d w$ 来表示 $\frac{\delta J(w,b)}{\delta w}$ ， $d b$ 来表示 $\frac{\delta J(w,b)}{\delta b}$ 。
直观看梯度下降：
从低维解释梯度下降：

2.5 计算图

一个神经网络的计算都是按照前向或反向传播的过程来计算的。首先计算出神经网络的输出，接着进行反向传输操作（计算对应的梯度或导数）。

示例：

2.6 Logistc Regression中的梯度下降

$L o g i s t i c$ $R e g r e s s i o n$ 中的 $l o s s$ $f u n c t i o n$ 表达式：
$z=w^{T}x+b$
$\widehat{y}=a=\sigma(z)$
$L (a, y) = - (y * l o g (a) + (1 - y) * l o g (1 - a))$
反向传播过程：
反向传播计算导数：

$da=\frac{\delta L}{\delta a}=- \frac{y}{a}+\frac{1-y}{1-a}$

$dz=\frac{\delta L}{\delta z}=\frac{\delta L}{\delta a}·\frac{\delta a}{\delta z}=(-\frac{y}{a}+\frac{1-y}{1-a})·a(1-a)=a-y$

$dw_1=\frac{\delta L}{\delta w_1}=\frac{\delta L}{\delta z}·\frac{\delta z}{\delta w_1}=(a-y)·x_1$

$d_b=\frac{\delta L}{\delta b}=\frac{\delta L}{\delta z}·\frac{\delta z}{\delta b}=a-y$
参数更新：

$w_1=:w_1-\alpha dw_1$
$w_2=:w_2-\alpha dw_2$
$b=:b-\alpha db$

2.7 m个样本的梯度下降

$l o g i s t i c$ $r e g r e s s i o n$ 中 $c o s t$ $f u n c t i o n$ 表达：

$z^{(i)}=w^{T}x^{(i)}+b$

$\widehat y^{(i)}=a^{(i)}=\sigma(z^{(i)})$

$J(w,b)=\frac{1}{m}\sum_{i=1}^mL(\widehat{y}^{(i)}, y^{(i)})=-\frac{1}{m}\sum_{i=1}^m[(ylog\widehat{y}+(1-y)log(1-\widehat{y}))]$
全局成本函数实际上是 $1$ 到 $m$ 项损失函数和的平均，因此全局成本函数对 $w_1$ 的导数，同样是各项损失函数对 $w_1$ 导数和的平均值。即：

$dz^{(i)}=a^{(i)}-y^{(i)}$

$dw_1=\frac{1}{m}\sum_{i=1}^{m}dz^{(i)}·x_1^{(i)}$

$dw_2=\frac{1}{m}\sum_{i=1}^{m}dz^{(i)}·x_2^{(i)}$

$d_b =\frac{1}{m}\sum_{i=1}^{m}(a^{(i)}-y^{(i)})$

参数更新

2.8 向量化

深度学习的算法中，我们通常面临大数据集，程序编写过程中，尽可能减少loop循环语句，使用向量化提高程序运行速度。

逻辑回归向量化
输入矩阵 $X:(n_x,m)$
权重矩阵 $w:(n_x,1)$
偏置变量 $b : 一个常数$
输出矩阵 $Y : (1, m)$
单次迭代梯度下降算法流程：

#正向
Z = np.dot(w.T,X)+b
A = sigmoid(Z)
#反向
dZ = A - Y
dw = 1/m * np.dot(X,dZ.T)
db = 1/m * np.sum(dZ)
#参数更新
w = w - alpha * dw
b = b - alpha * db

2.9 logistic regression cost function 的解释

预测输出 $\widehat{y}=\sigma(w^Tx+b)，where$ $\sigma(z)=\frac{1}{1+e^{-z}}$ ， $\widehat{y}$ 表示预测输出为正类（+1）的概率。

$l o s s$ $f u n c t i o n :$
$\widehat{y}=P(y=1|x)$ ：当 $y = 1$ 时， $P(y|x)=\widehat{y}$ ；当 $y = 0$ 时， $P(y|x)=1-\widehat{y}$ 。
上述两种情况整合到一起，即 $P(y|x)=\widehat{y}^{y}(1-\widehat{y})^{1-y}$ 。
对上式进行log处理（单调函数不影响原函数的单调性）：
$logP(y|x)=log(\widehat{y}^{y}(1-\widehat{y})^{1-y})=ylog\widehat{y}+(1-y)(1-\widehat{y})$
概率 $P (y ∣ x)$ 表示预测的准确性，越大越好。对上式加上负号，转化为单个样本的 $l o s s$ 函数，期望越小越好：
$L(\widehat{y},y)=-(ylog\widehat{y}+(1-y)(1-\widehat{y}))$
$c o s t$ $f u n c t i o n :$
$m$ 个训练样本时，假设样本之间独立同分布，则：

$P (l a b e l$ $i n$ $labelset)=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)})$

$\Rightarrow logP(...)=\sum^m_{i=1}P(y^{(i)}|x^{(i)})=-\sum^m_{i=1}L(\widehat{y},y)$

此时 $c o s t$ $f u n c t i o n :$ （因为 $c o s t$ 求最小，加负号）

$J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\widehat{y},y)=-\frac{1}{m}\sum_{i=1}^{m}(ylog\widehat{y}+(1-y)(1-\widehat{y}))$

参考资料：

[1] Andrew Ng 课程笔记连载：https://zhuanlan.zhihu.com/p/29688927
[2] 网易云课堂 Andrew Ng课程

本周编程作业链接：https://blog.csdn.net/iCode_girl/article/details/86702982
测验链接：https://blog.csdn.net/u013733326/article/details/79865858

涛涛酱

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
01.神经网络和深度学习 —— week2 神经网络基础

2.1 二分类问题1. 两个问题实现神经网络如果遍历训练集，不需要用for循环；为什么神经网络的计算过程可以分为前向传播和后向传播；2. 给出几个符号及含义样本(x,y)(x,y)(x,y)，训练样本包括m个；x∈Rnxx∈R^{n_{x}}x∈Rnx，表示样本x包含nxn_{x}nx个特征（hight * width * channel）；y∈(0,1)y∈(0,1)y∈...
复制链接

扫一扫