吴恩达深度学习-哔哩哔哩哔全讲笔记（1-2周）

望青空

已于 2024-06-30 20:41:28 修改

阅读量991

点赞数 16

分类专栏：深度学习文章标签：深度学习笔记人工智能 python

于 2024-06-30 18:24:34 首次发布

本文链接：https://blog.csdn.net/a2268850905/article/details/139950801

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

本博客总结的是吴恩达深度学习全192讲哔哩哔哩
为了方便理解和回顾写下本笔记
标题对应相应视频编号

2.1二元分类(猫)

给定一张64*64的图片

设x为列向量存储图片RGB数据

$x=\begin{bmatrix} 255\\ 255\\ \vdots\\ 255\\ 255\\ \vdots\\ 255\\ 255\\ \vdots \end{bmatrix}\quad$ 分别对应红绿蓝列向量维度nx=64*64*3

设(x,y) $\quad x\in R^{nx} (x是n维向量)\quad y\in [0,1]\quad$ 为一个训练集样本

设m是训练集样本总数
训练集: $[(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})]$
其中 $x^{(i)},y^{(i)})$ 表示第i个样本

设
$X=\begin{bmatrix} | & | &| \\ x^{(1)} &\cdots &x^{(m)} \\ | &| &| \end{bmatrix} \quad (2.1.1)$
因为 x为列向量所以X为（nx,m)矩阵 nx行 m列

设
$\begin{bmatrix} | & | & | & \\ y^{(1)} & \cdots & y^{(3)}\\ | & | & | \end{bmatrix} \ (2.1.2)$
此处 $y^{(i)}$ 是一个数当然也是列向量，Y为(1,m)矩阵,Y.shape=(1,m)

tips：把数或列向量按列排列很有用(排成行)

2.2 逻辑回归

给定x 算 $\hat{y}=P(y=1|x) \quad 0 \leq \hat{y} \leq 1$

设
$\hat{y}= \sigma(w^Tx+b)$
这里 $\sigma$ 是sigmoid激活函数看博客sigmoid函数
参数： $\in R^{(nx)} \quad$ w是nx维向量

损失函数

对训练集 $[(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})]$

设损失函数loss fuction： $L(\hat{y},y)=-(ylog \hat{y}+(1-y)log(1-\hat{y}))$
loss fuction有意义原因：y=1 y=0

设代价函数cost function： $J(w,b)=\frac{1}{m} \sum_{i=1}^m L(y^{(i)},y)$

2.4梯度下降

$\alpha \frac{J(w)}{dw}$
说明为啥迭代接近最优
$\alpha \frac{\alpha(J(w,b))}{\alpha (w)}\quad$
偏导数写法不影响

2.9逻辑回归梯度下降（一个样本）

给定一个样本(x,y)
假设w,x为二维向量 nx=2
$\begin{bmatrix} x1\\ x2 \end{bmatrix}\quad w= \begin{bmatrix} w1\\ w2 \end{bmatrix}$
x1,x2,w1,w2分别是一个数

设
$\begin{aligned} &z=w^Tx+b \\ &\hat{y}=a=\sigma(z) ] \\ &z=w_1x_1+w_2x_2+b \\ &L(a,y) \\ &da=\frac{dL(a,y)}{da} \\ &dz=\frac{dL}{dz}=\frac{dL(a,y)}{da} \cdot \frac{da}{dz}=a-y \quad \\ &dw_1=\frac{\alpha L}{\alpha w_1}=x_1 \cdot dz \\ &dw_2=x_2 \cdot dz \\ &db=dz \end{aligned} \tag{2.9.1}$
链式求导，其中 $\frac{da}{dz}=a(1-a)详见sigma函数导数)$

2.10 m个样本下的逻辑回归

设定有m个训练样本 w,x的维度仍是2维向量参考标题2.9
样本 $(x^{(i)},y^{(i)})对应z^{(i)} \quad a^{(i)}\quad x_1^{(i)} \quad x_2^{(i)}\quad dw_1^{(i)} \quad dw_2^{(i)}$
参数 $w_1 \quad w_2 \quad b在一次梯度下降中是固定的$

$\frac{1}{m} \sum_{i=1}^mL(a^{(i)},y^{(i)}) \\$
设
$\begin{aligned} dw_1 &= \frac{1}{m} \sum_{i=1}^m \frac{\alpha (L[a^{(i)},y^{(i)}])}{\alpha (w_1)}\\ 则&= \frac{1}{m} \sum_{i=1}^m dw_1^{(i)} \\ &= \frac{1}{m} \sum_{i=1}^{m}x_1^{(i)} \cdot dz^{(i)} \\ \\ dw_2 &= \frac{1}{m} \sum_{i=1}^m \frac{\alpha (L[a^{(i)},y^{(i)}])}{\alpha (w_2)}\\ 则&= \frac{1}{m} \sum_{i=1}^m dw_2^{(i)} \\ &= \frac{1}{m} \sum_{i=1}^{m}x_2^{(i)} \cdot dz^{(i)} \end{aligned} \tag{2.10.2}$
推导见公式2.9.1

设
$\begin{aligned} db &= \frac{1}{m} \sum_{i=1}^m \frac{\alpha (L[a^{(i)},y^{(i)}])}{\alpha (b)}\\ 则&= \frac{1}{m} \sum_{i=1}^m dz^{(i)} \\ &=\frac{1}{m} \sum_{i=1}^ma^{(i)} - y^{(i)} \end{aligned} \tag{2.10.2}$
推导见公式2.9.1

可以用一个for循环计算 $dw_1 \quad dw_2 \quad db$
然后计算出此次梯度下降得出的 $w_1 \quad w_2 \quad b$
$\begin{aligned} &w_1= w_1- \alpha \cdot dw_1 \\ &w_2=w_2 - \alpha \cdot dw_2 \\ &b=b- \alpha \cdot db \end{aligned}$

以上章节 w与x的维度nx=2，下一章扩展nx维度并且采用向量化方法运算得出 $dw_1 \quad dw_2 \quad db$

2.13向量化逻辑回归

设
$z=w^Tx+b \quad z,b\in R（实数）\\ w=\begin{bmatrix} w_1\\ \vdots \\ w_{nx} \end{bmatrix} \quad x=\begin{bmatrix} x_1\\ \vdots \\ x_{nx} \end{bmatrix} \quad x,w\in R^{nx}$
python中用一行代码运算 $z$ ： z=np.dot(w,x)+b

$X=\begin{bmatrix} |&|&| \\ x^{(1)}&\cdots& x^{(2)} \\ |&|&| \end{bmatrix}$
X矩阵里的 $x^{(i)}$ 为nx维列向量详见(2.1.1)公式

设

$\begin{aligned} &Z=\begin{bmatrix} z^{(i)},z^{(i)},\cdots,z^{(m)} \end{bmatrix}=w^TX+[b,b,\cdots,b] \\ &z^{(i)} \in R \quad Z为(1,m)矩阵 \end{aligned}$
python中用一行代码算 $Z$ : Z=np.dot(w.T,X)+b
其中 b会被广播成[b,b,…,b] (1,m)矩阵

设
$\begin{aligned} &A=\begin{bmatrix} a^{(1)},a^{(2)},\cdots,a^{(m)} \end{bmatrix}=\sigma(Z)\\ &a^{(i)} \in R \quad A是(1,m)矩阵 \end{aligned}$
python中用一个函数就能算A

设
$\begin{aligned} &dZ=[dz^{(i)},dz^{(i)},\cdots,dz^{(m)}] \\ &其中dz^{(i)}=a^{(i)}-y^{(i)} \quad参考(2.9.1) \end{aligned}$
设
$\begin{aligned} &Y=[y^{(i)},y^{(i)},\cdots,y^{(m)}] \\ &y^{(i)}是一个数 \end{aligned}$

向量化求变量

$\begin{aligned} &dZ=A-Y=[a^{(1)}-y^{(1)},\cdots,a^{(m)}-y^{(m)}] \\ \end{aligned}$
$\begin{aligned} db &= \frac{1}{m} \sum_{i=1}^m dz^{(i)} \\ &=\frac{1}{m} \sum_{i=1}^ma^{(i)} - y^{(i)} \\ &=\frac{1}{m}np.sum(dZ) \end{aligned}$

设
$\begin{aligned} dW=\begin{bmatrix} dw_1\\dw_2\\ \vdots \\ dw_{nx} \\ \end{bmatrix}=\begin{bmatrix} \frac{1}{m} \sum_{i=1}^{m}x_1^{(i)} \cdot dz^{(i)} \\ \frac{1}{m} \sum_{i=1}^{m}x_2^{(i)} \cdot dz^{(i)} \\ \vdots \\ \frac{1}{m} \sum_{i=1}^{m}x_{nx}^{(i)} \cdot dz^{(i)} \\ \end{bmatrix}\\ 其中dw_i \in R \quad参考(2.10.2)\\ \end{aligned}$
$\begin{aligned} dW & =\frac{1}{m}X \cdot dZ^T \\ &=\begin{bmatrix} |&|&| \\ x^{(1)}&\cdots& x^{(2)} \\ |&|&| \end{bmatrix} \cdot \begin{bmatrix} dz^{(1)}\\dz^{(2)}\\ \vdots\\ dz^{(m)} \end{bmatrix} \\ &=(nx,m) \cdot (m,1) \\ &=\begin{bmatrix} \frac{1}{m} \sum_{i=1}^{m}x_1^{(i)} \cdot dz^{(i)} \\ \frac{1}{m} \sum_{i=1}^{m}x_2^{(i)} \cdot dz^{(i)} \\ \vdots \\ \frac{1}{m} \sum_{i=1}^{m}x_{nx}^{(i)} \cdot dz^{(i)} \\ \end{bmatrix}=\begin{bmatrix} dw_1\\dw_2\\ \vdots \\ dw_{nx} \\ \end{bmatrix} \end{aligned}$