吴恩达深度学习课程笔记（一）：神经网络与深度学习

最新推荐文章于 2024-03-31 23:46:26 发布

lovecencen1893

最新推荐文章于 2024-03-31 23:46:26 发布

阅读量1.7k

点赞数 3

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/cluster1893/article/details/80983987

版权

吴恩达深度学习课程笔记（一）：神经网络与深度学习

吴恩达深度学习课程笔记（一）：神经网络与深度学习

第一周：深度学习概论

数据量大的时候大的网络能提高性能。在小的数据集上，我们更应该关注特征的选取、算法实现的细节之类的内容，因为在小的数据集上，各种规模的网络表现差不多。

第二周神经网络基础

2.1 二分类

使用这种方式表达样本在神经网络中是更常见的方式，即，每一列表示一个样本，每一行表示一个特征。
m 样本数量
n 特征数量

2.2 逻辑回归

用sigmoid函数去限制 $WX + b$ 的范围，即为逻辑回归。
$\hat y = \sigma(wx + b), \ where \ \sigma(z) = \frac{1}{1+ e^{-z}}$

2.3 逻辑回归的代价函数

$L(y,\hat y) = -ylog(\hat y)-(1-y)log(1-\hat y)$
Cost function:

J(w,b)=−1m∑i=1m{  ylog(y^)+(1−y)log(1−y^)} J ( w , b ) = − 1 m ∑ i = 1 m {   y l o g ( y ^ ) + ( 1 − y ) l o g ( 1 − y ^ ) }

$J(w,b) = - \frac{1}{m}\sum_{i=1}^m\left\{\ ylog(\hat y)+(1-y)log(1-\hat y)\right\}$

2.4 梯度下降

$repeat:\{$
$w = w - \alpha\frac{\partial J(w)}{\partial w}$
$b = b - \alpha\frac{\partial J(b)}{\partial b}$
$\}$

2.5 导数

略

2.6 更多关于导数的例子

略

2.7 计算图

略

2.8计算图上的导数

链式法则

2.9逻辑回归的梯度下降

a表示的是 $\hat y$ ，即逻辑回归的预测值。
对于sigmoid函数的求导为：
default
即 $\sigma(z)'=\sigma(z)(\ 1-\sigma(z)\ )$ 。

dz=∂L(y^,y)∂z=∂L(y^,y)∂y^dσ(z)dz=(−yy^+1−y1−y^){ y^(1−y^)}=y^−y(1)(2)(3)(4) (1) d z = ∂ L ( y ^ , y ) ∂ z (2) = ∂ L ( y ^ , y ) ∂ y ^ d σ ( z ) d z (3) = ( − y y ^ + 1 − y 1 − y ^ ) { y ^ ( 1 − y ^ ) } (4) = y ^ − y

$\begin{align} dz & = \frac{\partial L(\hat y,y)}{\partial z} \tag{1}\\ & = \frac{\partial L(\hat y,y)}{\partial \hat y}\frac{d \sigma(z)}{d z} \tag{2}\\ & = \left(-\frac{y}{\hat y} + \frac{1-y}{1-\hat y}\right)\left\{\hat y (1 - \hat y)\right\}\tag{3}\\ & = \hat y - y \tag{4} \end{align}$

dw1=x1dz d w 1 = x 1 d z $dw_1 = x_1dz$ 、

dw2=x2dz d w 2 = x 2 d z $dw_2 = x_2dz$ 、

db=dz d b = d z $db = dz$
那么，沿着代价函数梯度下降的方向更新参数：

w1=w1−α dw1 w 1 = w 1 − α d w 1 $w_1 = w_1 -\alpha \ dw_1$

w2=w2−α dw2 w 2 = w 2 − α d w 2 $w_2 = w_2 -\alpha \ dw_2$

b=b−α db b = b − α d b $b = b -\alpha \ db$
就可以最终到达一个局部最优点。
这就是逻辑回归的梯度下降。
推导的最终结果是，我们在梯度下降的时候，不需要再去推导，直接利用结论
目前为止还只是单个样本的梯度下降。

2.10 在整个样本集上的梯度下降

$Random\ initialization \ w_1、w_2、b$
$Repeat\ until\ convergence:$
1. $J = 0, \ dw_1 = 0,\ dw_2 = 0, \ db = 0$
2. $For \ i = 1 \ to\ m:$
3. $\ \ \ \ \ \ \ \ z^{(i)}= W^TX + b$
4. $\ \ \ \ \ \ \ \ a^{(i)} = \sigma(z^{(i)})$
5. $\ \ \ \ \ \ \ \ dz^{(i)} = a^{(i)} - y^{(i)}$
6. $\ \ \ \ \ \ \ \ J \ += - y^{(i)}log{a^{(i)}} - (1-y^{(i)})log{(1-a^{(i)})}$
7. $\ \ \ \ \ \ \ \ dw_1 \ += x_1^{(i)}dz^{(i)}$
8. $\ \ \ \ \ \ \ \ dw_2 \ += x_2^{(i)}dz^{(i)}$
9. $\ \ \ \ \ \ \ \ db \ += dz^{(i)}$
10. $end\ For$
11. $J = J/m$
12.

最低0.47元/天解锁文章

lovecencen1893

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
吴恩达深度学习课程笔记（一）：神经网络与深度学习

吴恩达：神经网络与深度学习(1)吴恩达：神经网络与深度学习(1)第一周：深度学习概论第二周神经网络基础2.1 二分类2.2 逻辑回归2.3 逻辑回归的代价函数2.4 梯度下降2.5 导数2.6 更多关于导数的例子2.7 计算图2.8计算图上的导数2.9逻辑回归的梯度下降2.10 在整个样本集上的梯度下降3.1 矢量化第三周浅层神经网络第四周深层神经网...
复制链接

扫一扫