吴恩达深度学习系列笔记:第一课 神经网络和深度学习

这篇博客详细介绍了吴恩达深度学习课程中的神经网络基础知识,包括logistic回归、代价函数、梯度下降法及其在logistic回归中的应用。讨论了激活函数的重要性,特别是sigmoid和ReLU函数,并介绍了浅层神经网络的结构和反向传播。内容涵盖从单一神经元的计算到深层神经网络的概念和参数维度的核对。
摘要由CSDN通过智能技术生成

第二周 神经网络基础

1.logistic回归

       logistic回归是一个用于二分分类的算法,即输入一幅图像(64x64x3=12288),输出1或者0,将图像中的特征全部提取出来,形成一个[12288,1]的特征矩阵,若是M个样本,则M_train = [12288,m],Y=[y1,y2...ym].输入参数X的维度为[12288,m],参数w的维度同为[12288,1],b为一个实数,则输出

                                                                              \hat y =w^Tx+b

由于输出要控制在0-1之间,因此要通过激活函数将输出变换一下。logistic回归常通过sigmoid函数进行变换,其函数图像如下:

                                                              

数学表达式为

 

 

                                                                          G(z) = \frac{1}{​{1 + {e^{ - z}}}}

符号约定:在神经网络中,我们常会把w和b分开,b在这里对应着一个拦截器,有的约定法则将b也写入参数矩阵w中。

2.代价函数

        我们可以这样定义一个损失函数:
                                                                        L(\hat y,y) = \frac{1}{2}{\left( {y - \hat y} \right)^2}

        这个函数比较容易理解,但是当使用在logistic回归过程中,在学习这些参数时,之后讨论的优化问题会变成非凸的,容易得到一些局部最优解,梯度下降法可能找不到局部最优值。在logistic回归中,我们常定义以下函数为损失函数,便可以使得损失函数变为一个凸函数:

                                                        L(\hat y,y)=-(y\log \hat y+(1-y)\log(1-\hat y))

        当y=1时,L(\hat y,y)=-\log \hat y,如果我们想让损失函数尽可能的小,则\hat y需要尽可能的大,但是\hat y被sigmoid函数限制在0-1之间,所以最终\hat y会趋向于1。同理我们可以推出当y=0时,想让损失函数尽可能的小,需要让\hat y尽可能的小,所以\hat y最终也会趋向于0。

       损失函数是衡量单个样本的输出值和真实值之间的差距,要衡量所有样本输出值和真实值的差距,我们需要定义一个代价函数:

                                     J(w,b) = \frac{1}{m}\sum\limits_{i = 1}^m {L({​{\hat y}^{(i)}},{y^{(i)}}) = } \frac{1}{m}\sum\limits_{i = 1}^m -(y\log \hat y+(1-y)\log(1-\hat y))

可以看出,代价函数只是对所有样本的损失函数进行了简单的平均化处理。

       代价函数推导:

已知:

                                                       \hat y = \sigma (w^{T}x+b) when \sigma(z)=\frac{1}{1+e^{-z}}

我们设定y帽为给定样本x条件下y=1的概率。

                                                                     P(y|x)=\hat y

则给定样本x条件下y=0的概率为:

                                                                     P(y|x)=1- \hat y

将两式合在一起可以得到:

                                                                    P(y|x)=\hat y^{y}(1-\hat y)^{(1-y)}

然后取对数即可获得:

                                                          log P(y|x)=y\log \hat y+(1-y)\log(1-\hat y)

由于训练过程需要最小化损失函数,所以前面要加一个负号。

多样本损失函数是假设各样本在独立同分布的条件下进行极大思然估计,使得损失函数达到最小。

3.梯度下降法

        用来训练w和b,来使代价函数达到最小。首先初始化w,b,梯度下降法便是使代价函数上面的点每次都向着它周围最陡的方向走一步,直到到达最优解。

        首先我们以一阶的代价函数为例,其函数图像如下图所示。

                                                   

每次都按照以下公式进行参数更新:

                                                                    w: = w - \alpha \frac{​{\partial J(w,b)}}{​{\partial w}}

容易看出&#x

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值