吴恩达Coursera深度学习课程 deeplearning.ai (1-2) 神经网络基础--课程笔记

最新推荐文章于 2020-04-05 21:40:36 发布

haoyutiangang

最新推荐文章于 2020-04-05 21:40:36 发布

阅读量577

点赞数

分类专栏：机器学习深度学习吴恩达

本文链接：https://blog.csdn.net/haoyutiangang/article/details/80058531

版权

机器学习同时被 3 个专栏收录

48 篇文章 12 订阅

订阅专栏

深度学习

41 篇文章 2 订阅

订阅专栏

吴恩达

34 篇文章 2 订阅

订阅专栏

相关课件：https://download.csdn.net/download/haoyutiangang/10369622

本周课程主要讲的是逻辑回归，因为之后的神经网络模型和逻辑回归类似。

二分分类

比如用多张图片训练来预测图片中是否有猫。

符号表示：

单个样本： (x, y)
样本数量： m
第 i 个样本： $x^{(i)}$
训练集： m = $m_{train}$
测试集： m = $m_{test}$
输入输出： 每个样本的 x 为输入，y 为输出
输入矩阵X： 输入 $x$ 的多个维度构成一个 n维列向量，m 个 $x$ 构成 m 个列向量，组合成为一个 (n*m) 的输入矩阵
输出矩阵Y： 输出 $y$ 非0即1，是一个1维的向量（一个数），m 个 $y$ 构成 m 个列向量，组合成为一个 (1*m) 的矩阵

logistic 回归

逻辑回归预测结果是1还是0

在线性回归中我们通常使用 $\hat Y$ = WX+b 来预测 Y 的预测值，但是这样 $\hat Y$ 的取值范围特别大，为了让 $\hat Y$ 收敛到 Y 也就是1或者0，需要对结果再进行一次 sigmoid 运算。

下图中红色部分是另一种表示方式，将 W 和 b 统一表示了，本课程中还是使用 W 和 b 来表示参数。

logistic 回归损失函数

样本上标(i)： 表示第 i 个样本
损失函数(loss function)： 评估 $\hat y$ 和 y 之间的差距
成本函数(cost function)： 评估损失函数的均值，即 m 个损失函数的均值

损失函数通常使用

L (y ̂, y) = 1 2 (y ̂ - y) 2

$L(\hat y, y) = \frac{1}{2} \; (\hat y-y)^2$
但是逻辑回归中，上述损失函数不是凸函数，不好计算最小值。

逻辑回归的损失函数(Loss Function)：

L (y ̂, y) = - (y l o g y ̂ + (1 - y) l o g (1 - y ̂))

$L(\hat y, y) = - (y \; log \;\hat y + (1-y)\;log\;(1-\hat y))$

逻辑回归的成本函数(Cost Function)：

J (w, b) = 1 m \sum i = 1 m L (y ̂ (i), y (i)) = - 1 m \sum i = 1 m [(y (i) l o g y ̂ (i) + (1 - y (i)) l o g (1 - y ̂ (i)))]

$J(w,b) = \frac{1}{m}\;\sum_{i=1}^m\;L(\hat y^{(i)}, y^{(i)}) = - \frac{1}{m}\;\sum_{i=1}^m\;[(y^{(i)} \; log \;\hat y^{(i)} + (1-y^{(i)})\;log\;(1-\hat y^{(i)}))]$

成本函数是 W 和 b 的函数，我们的目的是求最佳的 W 和 b, 使得成本函数尽可能的接近于0

梯度下降法

梯度下降法每次都沿着导数下降的方向走一小段距离，通过多次迭代逐步接近于函数最小值。（函数需是凸函数）

w : = w - α \partial J ( w , b ) \partial w b : = b - α \partial J ( w , b ) \partial b

$w := w - \alpha\;\frac{\partial J(w,b)}{\partial w} \\ b := b - \alpha\;\frac{\partial J(w,b)}{\partial b}$

α α $\alpha$ 为学习率，学习率和导数的乘积决定了步长值，在学习率一定的情况下，导数越大，步长越大；导数越小，步长越小。

导数

导数求导和链式法则

logistic 回归中的梯度下降法

前向传播

反向传播

补充

s i g m o i d = s = 1 1 + e - t s i g m o i d' = s' = s (1 - s)

$sigmoid = s = \frac{1}{1+e^{-t}}\\ sigmoid' = s' = s(1-s)$
链式求导

d a = \partial L \partial a = - y a + 1 - y 1 - a d z = \partial L \partial z = \partial L \partial a \partial a \partial z = (- y a + 1 - y 1 - a) \cdot a (1 - a) = a - y d w 1 = \partial L \partial w 1 = \partial L \partial z \partial z \partial w 1 = x 1 \cdot d z = x 1 (a - y) d b = \partial L \partial b = \partial L \partial z \partial z \partial b = 1 \cdot d z = a - y w 1 : = w 1 - α d w 1 w 2 : = w 2 - α d w 2 b : = b - α d b (8) (9) (10) (11) (12) (13) (14)

$\begin{align} &da = \frac{\partial L}{\partial a} = -\frac{y}{a} + \frac{1-y}{1-a} \\ &dz = \frac{\partial L}{\partial z} = \frac{\partial L}{\partial a}\;\frac{\partial a}{\partial z} = (-\frac{y}{a} + \frac{1-y}{1-a})\cdot a(1-a) = a-y \\ &dw_1 = \frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial z}\;\frac{\partial z}{\partial w_1} = x_1 \cdot dz = x_1(a-y) \\ &db = \frac{\partial L}{\partial b} = \frac{\partial L}{\partial z}\;\frac{\partial z}{\partial b} = 1\cdot dz = a-y \\ &w1 := w1 - \alpha dw_1 \\ &w2 := w2 - \alpha dw_2 \\ &b := b-\alpha db \\ \end{align}$

m 个样本的梯度下降

在 for 循环中计算每个样本的前向传播和反向传播，共 m 次
每个计算时输入可能是 n 维向量，所以需要计算 $w_1,w_2,...,w_n$ 共 n 个
为了减少 for 循环的时间，可以考虑使用向量化运算，也就是并行运算向量中的每一个值

向量化 logistic 回归

w: n*1
X: n*m
b: 1*m
y: 1*m

Z = np.dot(w.T,X) + b
A = sigmoid(Z)

dZ = A-Y
dw = 1/m*np.dot(X,dZ.T)
db = 1/m*np.sum(dZ)

w = w - alpha*dw
b = b - alpha*db

haoyutiangang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达Coursera深度学习课程 deeplearning.ai (1-2) 神经网络基础--课程笔记

相关课件：https://download.csdn.net/download/haoyutiangang/10369622本周课程主要讲的是逻辑回归，因为之后的神经网络模型和逻辑回归类似。二分分类比如用多张图片训练来预测图片中是否有猫。符号表示：单个样本： (x, y)样本数量： m第 i 个样本： x^(i) 训练集： m = m_train测试集： m ...
复制链接

扫一扫

专栏目录