【Andrew Ng 深度学习】（一）神经网络和深度学习

最新推荐文章于 2024-06-05 10:00:57 发布

你的一切都是星尘

最新推荐文章于 2024-06-05 10:00:57 发布

阅读量224

点赞数

本文链接：https://blog.csdn.net/qq_33826592/article/details/102333299

版权

机器学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

深度学习

3 篇文章 0 订阅

订阅专栏

【Andrew Ng 深度学习】（一）神经网络和深度学习

（一）神经网络和深度学习

返回目录

【2019-10-7】

（一）神经网络和深度学习

week 1. 深度学习概论

1.4 为什么深度学习会在近年来兴起

三个原因：

Data
Computation
Algorithms

ReLU比Sigmoid效果好，因为sigmoid和tanh的gradient在饱和区域非常平缓，接近于0，很容易造成vanishing gradient的问题，减缓收敛速度。 ReLU为什么比Sigmoid效果好

week 2. 神经网络基础

2.2 - 2.3 logistics regression

逻辑回归损失函数 Loss function： $L(\hat y,y) = -(y \log \hat y + (1-y)\log{(1-\hat y)})$
直观地，
如果 $y = 1$ ， $L(\hat y,y) = -\log \hat y$ ；
如果 $y = 0$ ， $L(\hat y,y) = -\log{(1-\hat y)}$
（不使用误差平方 $L(\hat y,y) = \frac{1}{2} (\hat y - y)^2$ 作为损失：因为非凸，很多个局部最优，梯度下降不好用）
成本函数 Cost function： $J(w,b)=\frac{1}{m} \sum_{i=1}^m{L(\hat y^{(i)},y^{(i)})}$

2.4 梯度下降 - Gradient Descent

minimize $J (w, b)$
在这里插入图片描述

2.5 - 2.6 导数

2.7 计算图 - Computation Graph

在这里插入图片描述

2.8 计算图的导数计算

在这里插入图片描述

2.9 logistic 中的梯度下降法

在这里插入图片描述

2.10 m个样本的梯度下降法

在这里插入图片描述

2.11 - 2.12 向量化 - Vectorization

消除代码中显示的for循环，加快运算速度

numpy常用矩阵运算：

np.dot(w, x)
np.exp(v)
np.log(v)
np.abs(v)
np.maximum(v, 0)
v ** 2
1 / v

2.13 - 2.14 向量化 Logistics 回归

在这里插入图片描述

2.15 Python 中的广播

在这里插入图片描述

2.16 关于python/numpy向量的说明

尽量不用一维数组
如：a = np.random.randn(5) 改为 a = np.random.randn(5, 1) 或 a = np.random.randn(1, 5)

断言 assert

a = np.random.randn(5, 1)
assert a.shape == (4, 1), "shape错误"

2.17 Jupyter/Ipython 快速指南

2.18 logistic 损失函数的解释

$\hat y = \sigma (w^Tx+b)$ , where $\sigma(z)=\frac{1}{1+e^{-z}}$ ；
$\hat y$ 为 $x$ 条件下 $y = 1$ 的概率 $p (y = 1 ∣ x)$ ；
因此，
如果 $y = 1$ ： $p(y|x)=\hat y$ ，即 $y = 1$ 的概率；
如果 $y = 0$ ： $p(y|x)=1-\hat y$ ，即 $y = 0$ 的概率；
由于 $y$ 只能取 $0$ 或者 $1$ ，因此上述两个式子合为一个：
$p(y|x)=\hat y^y(1-\hat y)^{1-y}$ .

由于 $\log$ 函数严格单调递增，最大化 $\log (p(y|x))$ 等价于最大化 $p (y ∣ x)$ ；
$\log (p(y|x)) = \log (\hat y^y(1-\hat y)^{1-y}) = y\log \hat y + (1-y)\log (1-\hat y)$
因此损失函数 Loss function为： $L(\hat y,y) = -(y \log \hat y + (1-y)\log{(1-\hat y)})$ 。
而 $m$ 个训练样本的总体成本函数该如何表示？
首先，整个训练集中标签的概率为（假设所有样本独立同分布）
$p(\text{labels in training set}) = \prod_{i=1}^{m} p(y^{(i)}|x^{(i)})$
最大似然估计，需寻找一组参数，使得给定样本的观测值概率最大，但令这个概率最大化，等价于令其对数最大化，于是在等式两边取对数
$\begin{aligned} \log p(\text{labels in training set}) & = \log \prod_{i=1}^{m} p(y^{(i)}|x^{(i)}) \\ & = \sum_{i=1}^{m} \log p(y^{(i)}|x^{(i)}) \\ & = \sum_{i=1}^{m} -L(\hat y^{(i)}, y^{(i)}) \end{aligned}$
因此，成本函数Cost function为 $J(w,b)=\frac{1}{m} \sum_{i=1}^m{L(\hat y^{(i)},y^{(i)})}$

week 3. 浅层神经网络

3.1 - 3.5 神经网络表示、计算、向量化

在这里插入图片描述

3.6 激活函数

搭建神经网络，有很多不同的选择：隐藏单元数、激活函数、如何初始化权重。
激活函数包括隐层里用哪一个激活函数、以及输出单元用什么激活函数。
常用的激活函数：
sigmoid函数： $\sigma(z)=\frac{1}{1+e^{-z}}$
双曲正切函数tanh： $\tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$ ，几乎在所有场合效果都比sigmoid好（一个例外是二分类时的输出层，sigmoid输出0到1之间更合理），因为平均值更接近于0，具有类似于数据中心化的效果，使输出数据平均值更接近于0，而不是sigmoid的0.5，这有助于下一层的学习。

而sigmoid和tanh都有一个缺点，就是当z非常大或非常小的时候，导数的梯度（斜率）会很小（接近于0），这时会拖慢梯度下降法，因此有所谓的修正线性单元ReLU： $\text{ReLU}(z)=\max(0,z)$ 。ReLU的缺点是，当z为负时，导数等于零。
最常用：ReLU，隐层激活函数默认选他。
ReLU和带泄露的ReLU的好处在于，对于很多z空间，激活函数的导数（斜率）和0差很远，所以在实践中使用ReLU，会使神经网络的学习速度快很多。
另外，对于z的一半范围来说，ReLU的斜率为零，但在实践中，有足够多的隐藏单元，令z大于0，所欲对大多数训练样本来说是很快的。
具体怎么选择，要根据实际应用，可以通过在数据集上交叉验证来选择参数。
在这里插入图片描述

3.7 为什么需要非线性激活函数？

如果不使用非线性激活函数，模型的输出 $\hat y$ 不过是输入特征 $x$ 的线性组合，那么不论神经网络有多少层，都跟去掉隐藏层后是一样的。

3.8 激活函数的导数

activation function name	function	Derivatives
sigmoid	$g(z)=\frac{1}{1+e^{-z}}$	$g^{'} (z) = g (z) (1 - g (z))$
tanh	$g(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$	$g'(z)=1-(g(z))^2$
ReLU	$g(z)=\max(0,z)$	$g'(z)=\begin{cases} 0 & z<0 \\1 & z\geq 0 \end{cases}$
Leaky ReLU	$g(z)=\max(0.01z,z)$	$g'(z)=\begin{cases} 0.01 & z<0 \\1 & z\geq 0 \end{cases}$

3.9* 神经网络的梯度下降法

在这里插入图片描述

3.10 （选修）直观理解反向传播

在这里插入图片描述

3.11 随机初始化

logistic回归可以将权重全部初始化为零，但神经网络则不行，这样会使梯度下降法完全失效。因此应该随机初始化权重（并且为比较小的随机值）：

w_1 = np.random.randn((2, 2)) * 0.01
b_1 = np.zeros((2, 1))

week 4. 深层网络基础

4.1 - 4.2 深层神经网络

4.3 核对矩阵的维数

在这里插入图片描述

4.4 为什么使用深层表示

4.5 搭建深层神经网络块

在这里插入图片描述

4.6 前向和反向传播

在这里插入图片描述
注：公式中 $d W$ 计算有误，应为： $dW^{[L]} = \frac{1}{m}dZ^{[L]}A^{[L-1]T}$

4.7 参数VS超参数

链接： Neural Network Hyperparameters

Parameters： $W^{[1]},b^{[1]},W^{[2]},b^{[2]},W^{[3]},b^{[3]},\cdots$
Hyperparameters：

learning rate $\alpha$
iterations
hidden layers $L$
hidden units $n^{[1]},n^{[2]},\cdots$
choice of activation function

其他超参数：

momentum
mini batch size
几种不同的正则化参数等

这些超参数某种程度上决定了最终得到的 $W$ 和 $b$ 。

当开始一个新应用的时候，预先很难确切知道超参数最优值是多少，所以通常必须尝试很多不同的值，试试各种参数。
在这里插入图片描述

返回目录

你的一切都是星尘

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
【Andrew Ng 深度学习】（一）神经网络和深度学习

【Andrew Ng 深度学习】（一）神经网络和深度学习
复制链接

扫一扫

专栏目录