吴恩达教授在Coursera课程Deeplearning关于矩阵维度总结

最新推荐文章于 2023-06-27 21:16:59 发布

sansherlock

最新推荐文章于 2023-06-27 21:16:59 发布

阅读量628

点赞数 1

分类专栏： Mlliu/CourseraDeeplearning

本文链接：https://blog.csdn.net/sansherlock/article/details/82262470

版权

Mlliu/CourseraDeeplearning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

吴恩达教授在Coursera课程Deeplearning关于矩阵维度总结

在Deeplearning这门课程第一周的第三节课：Shallow Neural Networks上，以两层神经网络分析 forward propagation和back propagation各计算公式的矩阵维度。
根据如下的神经网络架构：
这里写图片描述

1. Forward propagation

1.1 公式1

Z [1] = W [1] X + b [1] (1)

$Z ^ {[1]} = W ^{[1]} \ X + b^{[1]} \tag {1}$

公式	$Z [1]$ $Z ^ {[1]}$	$W [1]$ $W ^{[1]}$	$X$ $X$	$b [1]$ $b^{[1]}$
维度	$(n [1] \times m)$ $(n^{[1]}\times m)$	$(n [1] \times n [0])$ $(n^{[1]}\times n^{[0]})$	$(n [0] \times m)$ $(n^{[0]}\times m)$	$(n [1] \times m)$ $(n^{[1]}\times m)$

备注：

$m$ 是样本数

1.2 公式2

A [1] = g [1] * (Z [1]) (2)

$A ^ {[1]} = g ^{[1]}* (Z^{[1]}) \tag {2}$

公式	$A [1]$ $A ^ {[1]}$	$Z [1]$ $Z ^{[1]}$
维度	$(n [1] \times m)$ $(n^{[1]}\times m)$	$(n [1] \times m)$ $(n^{[1]}\times m)$

备注：

符号 $\ * \$ 是矩阵点乘操作
$g^{[1]} \$ 可以是 $\ sigmoid 、tanh、或者Relu \$ 函数

1.3 公式3

Z [2] = W [2] A [1] + b [2] (3)

$Z ^ {[2]} = W ^{[2]} \ A ^ {[1]} + b^{[2]} \tag {3}$

公式	$Z [2]$ $Z ^ {[2]}$	$W [2]$ $W ^{[2]}$	$A [1]$ $A ^ {[1]}$	$b [2]$ $b^{[2]}$
维度	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [2] \times n [1])$ $(n^{[2]}\times n^{[1]})$	$(n [1] \times m)$ $(n^{[1]}\times m)$	$(n [2] \times m)$ $(n^{[2]}\times m)$

备注：

在神经网络中，每一组 $\ W \$ 参数都是一行，与每一列 $\ A \$ 相乘；在Logistic Regression中， $\ W \$ 只有一列，是列向量，所以会写成 $\ Z = W ^{T} \ X + b \$ 的形式。

1.4 公式4

A [2] = g [2] * (Z [2]) (4)

$A ^ {[2]} = g ^{[2]}* (Z^{[2]}) \tag {4}$

公式	$A [1]$ $A ^ {[1]}$	$Z [1]$ $Z ^{[1]}$
维度	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [2] \times m)$ $(n^{[2]}\times m)$

备注：

符号 $\ * \$ 是矩阵点乘操作
$g^{[2]} \$ 一般是 $\ sigmoid \$ 函数（二分类）

2. Back propagation

2.1 公式5

d Z [2] = A [2] - Y (5)

$dZ ^ {[2]} = A^{[2]} - Y \tag {5}$

公式	$d Z [2]$ $dZ ^ {[2]}$	$A [2]$ $A^{[2]}$	$Y$ $Y$
维度	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [2] \times m)$ $(n^{[2]}\times m)$

备注：

$A^{[2]}$ 中的每一个元素在链式求导时都作为一个变量，所以维度是 $(n^{[2]}\times m)$
如果是二分类，则 $n^{[2]} =1 , Y = [y^{(1)} \quad y^{(2)} \ ... \ y{(m)}]$
默认 $g^{[2]}$ 函数是 $sigmoid$ 函数

2.2 公式6

d W [2] = 1 m d Z [2] A [1] T (6)

$dW ^ {[2]} = \frac{1}{m} dZ ^ {[2]} A^{[1]T} \tag {6}$

公式	$d W [2]$ $dW ^ {[2]}$	$d Z [2]$ $dZ ^ {[2]}$	$A [1] T$ $A^{[1]T}$
维度	$(n [2] \times n [1])$ $(n^{[2]}\times n^{[1]})$	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(m \times n [1])$ $( m\times n^{[1]})$

备注：

$\ W^{[2]} \$ 中的每个元素都是 $\ dZ^{[2]} \$ 中的每一行与 $\ A^{[1]T} \$ 中的每一列相乘的结果。每一个乘法的是意思的链式求导，相乘之后的加法意义是在计算 $\ W^{[2]} \$ 每个参数的梯度时，将m个样本的loss相加，即： $\ \frac{∂Lost}{∂W_{ij}}=\frac{1}{m} \sum{loss} \$

2.3 公式7

d b [2] = 1 m n p . s u m (d Z [2], a x i s = 1, k e e p d i m s = T r u e) (7)

$db ^ {[2]} = \frac{1}{m} np.sum( dZ ^ {[2]} ,axis \ = 1,keepdims = True) \tag {7}$

公式	$d b [2]$ $db ^ {[2]}$
维度	$(n [2] \times 1)$ $(n^{[2]}\times 1)$

2.4 公式8

d Z [1] = W [2] T d Z [2] * g [1]' (Z [1]) (8)

$dZ ^ {[1]} = W^{[2]T} dZ^{[2]}* g^{[1]'}(Z^{[1]}) \tag {8}$

公式	$d Z [1]$ $dZ ^ {[1]}$	$W [2] T$ $W^{[2]T}$	$d Z [2]$ $dZ^{[2]}$	$g [1]' (Z [1])$ $g^{[1]'}(Z^{[1]})$
维度	$(n [1] \times m)$ $(n^{[1]}\times m)$	$(n [1] \times n [2])$ $(n^{[1]}\times n^{[2]})$	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [1] \times m)$ $(n^{[1]}\times m)$

备注：

符号 $\ * \$ 是矩阵点乘操作
$g^{[1]} \$ 一般是 $\ sigmoid \$ 函数（二分类）
当 $g^{[1]} = sigmoid ，g^{[1]'} = g^{(1)}(1-g^{(1)}) ; \quad$
当 $g^{[1]} = tanh ，g^{[1]'} = (1-g^{(1)2}) ; \quad$
当 $g^{[1]} = Relu , max(0,Z) ， \quad$

$g [1]' = {0 i f Z < 0 1 i f Z ⩾ 0$ $g^{[1]'}=\left\{ \begin{aligned} 0 \quad if \ Z \ < \ 0 \\ 1 \quad if \ Z \ \geqslant \ 0 \\ \end{aligned} \right.$
当 $g^{[1]} = Relu , max(0.01Z,Z) ， \quad$

$g [1]' = {0.01 i f Z < 0 1 i f Z ⩾ 0$ $g^{[1]'}=\left\{ \begin{aligned} 0.01 \quad if \ Z \ < \ 0 \\ 1 \quad if \ Z \ \geqslant \ 0 \\ \end{aligned} \right.$

2.5 公式9

d W [1] = 1 m d Z [1] X T (9)

$dW ^ {[1]} = \frac{1}{m} dZ ^{[1]}X^{T} \tag {9}$

公式	$d W [1]$ $dW ^ {[1]}$	$d Z [1]$ $dZ ^{[1]}$	$X T$ $X ^{T}$
维度	$(n [1] \times n [0])$ $(n^{[1]}\times n^{[0]})$	$(n [1] \times m)$ $(n^{[1]}\times m)$	$(m \times n [0])$ $(m\times n^{[0]})$

2.6 公式10

d b [1] = 1 m n p . s u m (d Z [1], a x i s = 1, k e e p d i m s = T r u e) (10)

$db ^ {[1]} = \frac{1}{m}np.sum(dZ^{[1]},axis = 1,keepdims = True) \tag {10}$

公式 $d b [1]$ $db ^ {[1]}$
维度 $(n [1] \times 1)$ $(n^{[1]}\times 1)$

公式	$d b [1]$ $db ^ {[1]}$
维度	$(n [1] \times 1)$ $(n^{[1]}\times 1)$

3. 总结

这里写图片描述

公式书写习惯学习自吴恩达的课程，有错误地方，烦请指正。

sansherlock

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
吴恩达教授在Coursera课程Deeplearning关于矩阵维度总结

吴恩达教授在Coursera课程Deeplearning关于矩阵维度总结在Deeplearning这门课程第一周的第三节课，Shallow NN上，自己以两层神经网络分析 forward propagation和back propagation的矩阵维度。根据如下的神经网络架构：1. Forward propagation1.1Z[1]=W[1]X+b[1](1)(1)Z...
复制链接

扫一扫