【深度学习-吴恩达】L1-2 神经网络基础

最新推荐文章于 2024-09-17 11:41:04 发布

JackSerin

最新推荐文章于 2024-09-17 11:41:04 发布

阅读量182

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/u011315681/article/details/126043557

版权

深度学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

本课程介绍了深度学习的基础，重点讲解了二分分类问题和Logistic回归。Logistic回归是一种用于二分类的算法，通过Sigmoid函数将线性回归的输出转换为0和1之间的概率。课程详细阐述了损失函数、梯度下降法以及如何优化这些参数。此外，还讨论了向量化计算的优势，以提高计算效率，避免显式的for循环，并给出了Python中Numpy库的使用建议。

摘要由CSDN通过智能技术生成

L1 深度学习概论

2 神经网络基础

课程视频共145min6s

2.1 二分分类

Binary Classification

一些表示方法

m：数据集的规模
- m_train ：训练集规模
- m_test：测试集规模
n_x：输入特征向量的维度，简写为n
(x, y)：一组单独训练样本
y：在二分类中，0/1的输出结果，即y∈{0, 1}
x：n_x维度的输入特征向量，即x∈R^n_x
训练集：{(x⁽¹⁾, y⁽¹⁾), (x⁽²⁾, y⁽²⁾), …, (x^(m), y^(m))}
- X=[x⁽¹⁾, x⁽²⁾, …, x^(m)]
  - X ∈ R^{n_x × m}
  - X.shape=(n_x, m)
- Y=[y⁽¹⁾, y⁽²⁾, …, y^(m)]
  - Y∈R^1×m
  - Y.shape = (1, m)

2.2 Logisitc回归

logistic回归：二分分类算法，输出标签0/1

Given x, want $\hat{y}$ = P(y = 1 | x)

若线性回归，则 $\hat{y}$ = w^Tx + b

值不会在[0, 1]之间，可以很大或者负值

Sigmoid函数， $\hat{y} = \sigma(w^Tx + b)$

$\sigma(z) = \frac{1}{1 + e^-z}$
0到1之间
极限接近0或者1
学习参数 $w$ 和 $b$
另一种表示方式（不重要）
- $\hat{y} = \sigma(\theta^Tx)$
- 其中输入x默认x₀ = 1，所以x∈R^n_x+1
- $\theta^T = \left( \begin{matrix} \theta_0\\ \theta_1\\ \vdots\\ \theta_{n_x} \end{matrix} \right)$
- 其中 $\theta_0$ 与x₀相乘，即为b
- $\theta_1$ 到 $\theta_{n_x}$ 即为 $w^T$

2.3 Logistic回归损失函数

使用上标 $(i)$ 来指明数据

$\sigma(z^{(i)})= \frac{1}{1 + e^{-z^{(i)}}}$

损失函数 $L(\hat{y} - y)$ loss function

适用于单个训练样本
$L(\hat{y}-y) = -(ylog\hat{y} + (1-y)log(1-\hat{y}))$
- 若y = 1，则 $L(\hat{y}-y) = -log\hat{y}$
  - 损失函数较小，则期望 $\hat{y}$ 较大，接近1
- 若y = 0，则 $L(\hat{y}-y) = log(1-\hat{y})$
  - 损失函数较小，则期望 $\hat{y}$ 较小，接近0

成本函数 cost function

参数的总成本
$\frac{1}{m}\sum_{i = 1}^{m} L(\hat{y}^{(i)} - y^{(i)}) = -\frac{1}{m}\sum_{i=1}^{m}(y^{(i)}log\hat{y}^{(i)} + (1-y^{(i)})log(1-\hat{y}^{(i)}))$

2.4 梯度下降法

希望找到最小的$J(w,b) $

$J(w,b) $是一个凸函数，由此从任何初始点，容易获得相似的最终位置，即全局最优解

$\alpha\frac{dJ(w,b)}{dw}\\ b:= b - \alpha\frac{dJ(w,b)}{db}$

$\alpha$ ：学习率
更新 $w, b$ ，迭代学习，直到最优点
求导严格来讲，两个及以上变量时候，应该使用 $\partial$
编程时候常使用dw、db变量

2.5 导数

$f (a) = 3 a$

$\frac{d}{da}f(a)=3$

derivative 导数

slope 斜率

2.6 导数2

$f(a) = a^2$ $\frac{d}{da}f(a)=2a$

$f (a) = 3 a$ $\frac{d}{da}f(a)=3$

$f (a) = l n (a)$ $\frac{d}{da}f(a)=\frac{1}{a}$

2.7 计算图

$J (a, b, c) = 3 (a + b c)$

计算图：从左到右的计算

2.8 使用计算图求导

导数：计算图从右到左计算

链式法则

$\frac{dJ}{dv}=3$

$\frac{dJ}{da} = 3$

$\frac{dJ}{du}=3$

$\frac{dJ}{db}=3c$

一些编程时候，想要最终结果的某个导数 $\frac{dFindOutputVar}{dvar}$ 通常记作dvar变量

2.9 Logistic回归中的梯度下降法

logistic回归回顾

$z=w^Tx+b$
$\hat{y}=a=\sigma(z)$
$L (a, y) = - (y l o g (a) + (1 - y) l o g (1 - a))$

两个输入特征的计算图

变量da = $\frac{dL(a,y)}{da} = -\frac{y}{a} + \frac{1-y}{1-a}$

变量dz = $\frac{dL}{dz} = a-y$

变量dw1 = $\frac{dL}{dw_1}=x_1(a-y)$

变量dw2 = $\frac{dL}{dw_1}=x_2(a-y)$

变量db = $\frac{dL}{dw_1}=a-y$

单样本的梯度下降法求解：

$w_1:= w_1 - \alpha\frac{dL}{dw_1}\$

$w_2:= w_2 - \alpha\frac{dL}{dw_2}\$

$b:= b - \alpha\frac{dL}{db}\$

2.10 多样本的梯度下降法

$J(w,b) = \frac{1}{m}\sum_{i = 1}^{m} L(a^{(i)} - y^{(i)}) $

所有样本损失函数的平均值

$a^{(i)} = \hat{y}^{(i)}=\sigma(w^Tx^{(i)}+b)$
$\frac{\partial}{\partial w_1}J(w,b) = \frac{1}{m}\sum_{i = 1}^{m}\frac{\partial}{\partial w_1} L(a^{(i)} - y^{(i)})$
一个例子

$J=0, dw_1=0, dw_2=0, db=0$

For i=1 to m

$\quad z^{(i)}=w^Tx{(i)}+b$

$\quad a^{(i)}=\sigma(z^{(i)})$

$\quad J += -(y^{(i)}log(a^{(i)}) + (1-y^{(i)})log(1-a^{(i)}))$

$\quad dz^{(i)} = a^{(i)}-y^{(i)}$

$\quad dw_1+= x_1^{(i)}dz^{(i)}$

$\quad dw_2+= x_2^{(i)}dz^{(i)}$

$\quad db += dz^{(i)}$

$J / = m$

$dw_1/= m;dw_1/=m;db/=m$

$w_1:= w_1 - \alpha dw_1$

$w_2:= w_2 - \alpha dw_2$

$\alpha b$

两个缺点
- 需要两个循环，一个循环m个样本，另一个循环n个特征
  - 显式使用for循环效率较低
  - 使用向量化进行优化
- ？另一个缺点没说

2.11 向量化

Vectorization

非向量化版本

z = 0
for i in range(nx):
    z += w[i]*x[i]
z += b

向量化版本

z = np.dot(w, x) + b

GPU和CPU都有并行化指令SIMD
- 单指令流多数据流
- numpy能充分利用并行化提速，而不要显式使用for循环

2.12 向量化2

避免for循环

计算eⁿ矩阵

u = np.exp(v)
计算log值

np.log(v)
计算绝对值

np.abs(v)
计算最大值

np.maxinum(v)

logistic回归非向量化版本

$J=0, dw_1=0, dw_2=0, db=0$

For i=1 to m

$z^{(i)}=w^Tx{(i)}+b$

$a^{(i)}=\sigma(z^{(i)})$

$J += -(y^{(i)}log(a^{(i)}) + (1-y^{(i)})log(1-a^{(i)}))$

$dz^{(i)} = a^{(i)}-y^{(i)}$

$dw_1+= x_1^{(i)}dz^{(i)}$

$dw_2+= x_2^{(i)}dz^{(i)}$

$db += dz^{(i)}$

J /= m

$dw_1/= m;dw_1/=m;db/=m$

$w_1:= w_1 - \alpha dw_1$

$w_2:= w_2 - \alpha dw_2$

$\alpha db$

logistic回归向量化版本

$J=0, dw=np.zeros((n_x,1)), db=0$

For i=1 to m

$z^{(i)}=w^Tx{(i)}+b$

$a^{(i)}=\sigma(z^{(i)})$

$J += -(y^{(i)}log(a^{(i)}) + (1-y^{(i)})log(1-a^{(i)}))$

$dz^{(i)} = a^{(i)}-y^{(i)}$

$dw+= x^{(i)}dz^{(i)}$

$db += dz^{(i)}$

J /= m

$d w / = m; d b / = m$

$w_1:= w_1 - \alpha dw_1$

$w_2:= w_2 - \alpha dw_2$

$\alpha db$

2.13 向量化3

计算正向传播
$[z^{(1)}z^{(2)}\dots z^{(m)}]\\ = w^TX+[bb\dots b]\\ = [w^Tx^{(1)} + b\space\space\space w^Tx^{(2)} + b \space\space\space \dots \space\space\space w^Tx^{(m)} + b]$
在b为常数时候，由此使用一行代码可以进行计算，无需使用for循环：

Z = np.dot(w^T, X) + b

其中b为常数，在Python中会广播为1×m向量

2.14 向量化4

同时计算m个数据集参数

非向量法：

dZ定义：
$dz^{(1)} = a^{(1)} - y^{(1)}\\ dz^{(2)} = a^{(2)} - y^{(2)}\\ \vdots\\ dz^{(m)} = a^{(m)} - y^{(m)}\\ dZ = [dz^{(1)}\quad dz^{(2)}\quad \dots \quad dz^{(m)}]\\\\$
dZ用A和Y表示
$[a^{(1)}\dots a^{(m)}]\qquad Y = [y^{(1)}\dots y^{(m)}]\\ => dZ = A - Y = [a^{(1)}\!-\!y^{(1)}\space\dots\space a^{(m)}\!-\!y^{(m)}]\\\\$
计算dw
$dw=0\\ dw_1+= x_1^{(1)}dz^{(1)}\\ dw_2+= x_2^{(2)}dz^{(2)}\\ \vdots\\ dw_n+= x_n^{(n)}dz^{(n)}\\ dw /= dw\\\\ 计算db\\ db += dz^{(1)}\\ db += dz^{(2)}\\ \vdots\\ db += dz^{(n)}$
向量法：
$\frac{1}{m}\sum_{i=1}^mdz^{(i)}=\frac{1}{m}np.sum(dZ)\\ dw=\frac{1}{m}XdZ^T=\frac{1}{m}[x^{(1)}\dots x^{(m)}][dz^{(1)}\dots dz^{(m)}]^T$

具体实现：

For iter in range(1000): #多次迭代更新参数

$\quad Z = w^TX+b=np.dot(w^T,x)+b$

$\quad A=\sigma(Z)$

$\quad dZ=A-Y$

$\quad dw=\frac{1}{m}XdZ^T$

$\quad db=\frac{1}{m}np.sum(dZ)$

$\quad w:=w-\alpha dw$

$\quad b:=b-\alpha db$

2.15 Python中的广播

广播的例子

#求列的和，行使用axis=1
cal = A.sum(axis = 0)
percentage = 100 * A / (cal.reshape(1, 4))

统用法则

m*n矩阵，进行加法或者减法
- (1, n) / (m, 1) -> (m, n)

2.16 Python Numpy的说明

优势

语言表现能力更强

劣势

容易出现细微的错误

尽量避免使用秩为1的矩阵

2.17 Jupyter使用指南

作业链接：https://www.heywhale.com/home/column/5e8181ce246a590036b875f9

2.18 Logistic损失函数解释

损失函数 $L$

If y=1: P(y|x) = $\hat{y}$
If y=0: P(y|x) = $1-\hat{y}$
$\hat{y}^y(1-\hat{y})^{(1-y)}$
$ylog\hat{y} + (1-y)log(1-\hat{y}) = -L(\hat{y},y)$

成本函数 $J$ ：

$P(labels\space in\space train\space set) = \prod_{i=1}^mP(x^{(i)}|y^{(i)})\\ log\space P(labels\space in\space train\space set) = log\prod_{i=1}^mP(x^{(i)}|y^{(i)})=-\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)})\\ J(w,b) = \frac{1}{m}\sum_{i = 1}^{m} L(\hat{y}^{(i)} - y^{(i)})$