吴恩达深度学习课程笔记(一):神经网络与深度学习
第一周:深度学习概论
数据量大的时候大的网络能提高性能。在小的数据集上,我们更应该关注特征的选取、算法实现的细节之类的内容,因为在小的数据集上,各种规模的网络表现差不多。
第二周 神经网络基础
2.1 二分类
使用这种方式表达样本在神经网络中是更常见的方式,即,每一列表示一个样本,每一行表示一个特征。
m 样本数量
n 特征数量
2.2 逻辑回归
- 用sigmoid函数去限制 WX+b W X + b 的范围,即为逻辑回归。
y^=σ(wx+b), where σ(z)=11+e−z y ^ = σ ( w x + b ) , w h e r e σ ( z ) = 1 1 + e − z
2.3 逻辑回归的代价函数
L(y,y^)=−ylog(y^)−(1−y)log(1−y^) L ( y , y ^ ) = − y l o g ( y ^ ) − ( 1 − y ) l o g ( 1 − y ^ )
Cost function:
2.4 梯度下降
repeat:{
r e p e a t : {
w=w−α∂J(w)∂w w = w − α ∂ J ( w ) ∂ w
b=b−α∂J(b)∂b b = b − α ∂ J ( b ) ∂ b
} }
2.5 导数
略
2.6 更多关于导数的例子
略
2.7 计算图
略
2.8计算图上的导数
链式法则
2.9逻辑回归的梯度下降
a表示的是 y^ y ^ ,即逻辑回归的预测值。
对于sigmoid函数的求导为:
即 σ(z)′=σ(z)( 1−σ(z) ) σ ( z ) ′ = σ ( z ) ( 1 − σ ( z ) ) 。
dw1=x1dz d w 1 = x 1 d z 、 dw2=x2dz d w 2 = x 2 d z 、 db=dz d b = d z
那么,沿着代价函数梯度下降的方向更新参数:
w1=w1−α dw1 w 1 = w 1 − α d w 1
w2=w2−α dw2 w 2 = w 2 − α d w 2
b=b−α db b = b − α d b
就可以最终到达一个局部最优点。
这就是逻辑回归的梯度下降。
推导的最终结果是,我们在梯度下降的时候,不需要再去推导,直接利用结论
目前为止还只是单个样本的梯度下降。
2.10 在整个样本集上的梯度下降
Random initialization w1、w2、b R a n d o m i n i t i a l i z a t i o n w 1 、 w 2 、 b
Repeat until convergence: R e p e a t u n t i l c o n v e r g e n c e :
1. J=0, dw1=0, dw2=0, db=0 J = 0 , d w 1 = 0 , d w 2 = 0 , d b = 0
2. For i=1 to m: F o r i = 1 t o m :
3. z(i)=WTX+b z ( i ) = W T X + b
4. a(i)=σ(z(i)) a ( i ) = σ ( z ( i ) )
5. dz(i)=a(i)−y(i) d z ( i ) = a ( i ) − y ( i )
6. J +=−y(i)loga(i)−(1−y(i))log(1−a(i)) J + = − y ( i ) l o g a ( i ) − ( 1 − y ( i ) ) l o g ( 1 − a ( i ) )
7. dw1 +=x(i)1dz(i) d w 1 + = x 1 ( i ) d z ( i )
8. dw2 +=x(i)2dz(i) d w 2 + = x 2 ( i ) d z ( i )
9. db +=dz(i) d b + = d z ( i )
10. end For e n d F o r
11. J=J/m J = J / m
12.