吴恩达深度学习课程笔记——梯度下降算法和向量化

最新推荐文章于 2022-05-08 23:29:25 发布

阿姝姝姝姝姝

最新推荐文章于 2022-05-08 23:29:25 发布

阅读量305

点赞数 1

分类专栏： # week2神经网络编程基础文章标签：算法深度学习机器学习

本文链接：https://blog.csdn.net/lxs3213196/article/details/120711943

版权

week2神经网络编程基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

梯度下降算法和向量化

逻辑回归中的梯度下降
- 单样本梯度下降
向量化
- 多样本梯度下降

逻辑回归中的梯度下降

梯度下降法的作用是：在测试集上，通过最小化代价函数 $J (w, b)$ 来训练的参数 $w$ 和 $b$ 。
$w:=w-a\frac{\partial J(w,b)}{\partial w}$
$b:=w-a\frac{\partial J(w,b)}{\partial b}$
$: =$ 表示更新参数
$a$ 表示学习率（learning rate），用来控制步长（step）
$\partial$ 表示求偏导符号
$\frac{\partial J(w,b)}{\partial w}$ 是 $J (w, b)$ 对 $w$ 求偏导，代码使用 $d w$ 表示
$\frac{\partial J(w,b)}{\partial b}$ 是 $J (w, b)$ 对 $b$ 求偏导，代码使用 $d b$ 表示

单样本梯度下降

回想逻辑回归的公式定义：
$z={{w}^{T}}x+b$
$\hat{y}=a=\sigma (z)=\frac{1}{1+{{e}^{-z}}}$
损失函数： ${{{\hat{y}}}^{(i)}},{{y}^{(i)}})=-{{y}^{(i)}}\log {{\hat{y}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{\hat{y}}^{(i)}})$
代价函数： $J\left( w,b \right)=\frac{1}{m}\sum\nolimits_{i}^{m}{L( {{{\hat{y}}}^{(i)}},{{y}^{(i)}})}$
假设样本只有两个特征 ${{x}_{1}}$ 和 ${{x}_{2}}$ ，只考虑一个样本，为了计算 $z$ ，我们需要输入参数 ${{w}_{1}}$ 、 ${{w}_{2}}$ 和 $b$ ，还有特征值 ${{x}_{1}}$ 和 ${{x}_{2}}$ 。
$z={{w}_{1}}{{x}_{1}}+{{w}_{2}}{{x}_{2}}+b$
$L(a,y)=-(y\log (a)+(1-y)\log (1-a))$
其中 $a$ 是逻辑回归的输出， $y$ 是样本的标签值。
根据导数链式法则进行反向传播
$da=\frac{dL(a,y)}{da}=-y/a+(1-y)/(1-a)$
$\frac{da}{dz}=a\cdot (1-a)$
所以：
$dz=\frac{dL(a,y)}{dz}=(\frac{dL}{da})\cdot (\frac{da}{dz})=a-y$
$d{{w}_{1}}=\frac{\partial L}{\partial {{w}_{1}}}={{x}_{1}}\cdot dz$
$d{{w}_{2}}=\frac{\partial L}{\partial {{w}_{2}}}={{x}_{2}}\cdot dz$
$d b = d z$
更新 ${{w}_{1}}={{w}_{1}}-a d{{w}_{1}}$ ，
更新 ${{w}_{2}}={{w}_{2}}-a d{{w}_{2}}$ ，
更新 $b=b-\alpha db$ 。
这就是关于单个样本实例的梯度下降算法中参数更新一次的步骤。

向量化

向量化是非常基础的去除代码中for循环的艺术，在深度学习安全领域、深度学习实践中是提高代码运行速度非常关键的技巧。

python中向量化使用的常用指令
import numpy as np 
w= np.array(n(x), 1) 
u=np.zeros(n(x), 1)
c= np.dot(a,b)   #a和b矩阵乘法
u=np.log         #计算对数函数($log$)
u=np.abs()       #计算数据的绝对值
u=np.maximum(v, 0)   #按元素计算$v$中每个元素和和0相比的最大值

矩阵乘法的定义就是： $u_{i} =\sum_{j}^{}{A_{\text{ij}}v_{i}}$ ，这取决于你怎么定义 $u_{i}$ 值。同样使用非向量化实现， $u = n p . z e r o s (n, 1)$ ，并且通过两层循环 $f o r (i) : f o r (j) :$ ，得到 $u [i] = u [i] + A [i] [j] * v [j]$ 。现在就有了 $i$ 和 $j$ 的两层循环，这就是非向量化。向量化方式就可以用 $u = n p . d o t (A, v)$ ，右边这种向量化实现方式，消除了两层循环使得代码运行速度更快。

多样本梯度下降

$z={{w}^{T}}x+b$ ， $w$ 、 $x$ 都是列向量

$z= w^{T}X + b = np.dot( w.T,X)+b$
$\sigma( Z )$
$d Z = A - Y$
$\frac{1}{m}*X*dz^{T}\ }$
$\frac{1}{m}*np.sum( dZ)$
$w : = w - a * d w$
$b : = b - a * d b$
利用前五个公式完成了前向和后向传播，实现了对所有训练样本进行预测和求导，利用后两个公式，梯度下降更新参数。不使用for循环，通过一次迭代实现一次梯度下降，但如果你希望多次迭代进行梯度下降，那么仍然需要for循环，放在最外层。

阿姝姝姝姝姝

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
吴恩达深度学习课程笔记——梯度下降算法和向量化

梯度下降算法和向量化逻辑回归中的梯度下降单样本梯度下降向量化多样本梯度下降逻辑回归中的梯度下降梯度下降法的作用是：在测试集上，通过最小化代价函数J(w,b)J(w,b)J(w,b)来训练的参数www和bbb。w:=w−a∂J(w,b)∂ww:=w-a\frac{\partial J(w,b)}{\partial w}w:=w−a∂w∂J(w,b)b:=w−a∂J(w,b)∂bb:=w-a\frac{\partial J(w,b)}{\partial b}b:=w−a∂b∂J(w,b):=:=:
复制链接

扫一扫