九、部署自己的神经网络

1 代价函数

此处以解决分类问题为例来研究神经网络的代价函数

1.1 符号定义

L:神经网络的总层数
Sl:第l层的神经元个数
K:输出层神经元个数(对于二分类问题,K=1;对于多分类问题,K≥3)
δj(l):第l层,第j个神经元的误差
aj(l):第l层第j个神经元的激活函数
Θij(l):第l-1层的第j个神经元向第l层的第i个神经元传播时的权重值(不理解的可以看上一篇文章)

1.2 代价函数定义

我们首先回顾一下多分类中神经网络的输出:
在这里插入图片描述
再回顾一下Logistics回归中代价函数的定义:
在这里插入图片描述
下面我们给出用神经网络处理分类问题时的代价函数:
在这里插入图片描述

发现此时的代价函数和Logistics回归中的加入正则化项的代价函数等价。其中K表示要划分的类的个数,hΘ(x)是K维向量,(hΘ(x))i表示其第i个元素。

2 反向传播算法

依旧利用梯度下降算法的思想,为了最小化代价函数J(Θ),则要计算以下偏导数:
在这里插入图片描述

2.1 假设只有一个训练样本的情况

  1. 首先对其前向传播过程进行计算:
    在这里插入图片描述
  2. 求其最后层(输出层)的误差:
    在这里插入图片描述
    也可以将最后一层的误差用向量化的形式表达:
    在这里插入图片描述
  3. 计算其他层的误差(向量化表达)
    在这里插入图片描述
    我们不用算第一层的误差,因为第一层是输入层
    其中“ .*”表示两个矩阵对应元素相乘
    g’(z(3))是在输入为z(3)时对激活函数求导,其值等于:
    在这里插入图片描述
  • 即:g’(z(l)) = a(l) .* (1-a(l))
  1. 而当λ=0时,我们有:
    在这里插入图片描述

2.2 一般情况(m个训练样本)

在这里插入图片描述

  • 其中红字是对应框内的向量化表达;
  • j=0时表示常数偏置单元,不需要对其进行正则化,所以分开讨论;
  • 其中i表示第i个训练样本,l表示神经网络的第l层,j表示第j个神经元;
  • Δ是新定义的变量,作为累加项,用来表示和计算将来的偏导。
  • 在前向传播和反向传播中每次只用一次样本
  • Θ(1)、Θ(2)、D(1)、D(2)都是矩阵

通过数学推导,可以证明:代价函数的偏导数正是D:
在这里插入图片描述

2.3 反向传播的理解

  • δj(l)衡量了在第l层第j个单元,激活项aj(l)的误差
  • δ衡量了为了影响这些中间值,我们想要改变神经网络中的权重的程度。
  • 我们用反向传播算法其实就是为了计算这个值:
    在这里插入图片描述

3 梯度检测

3.1 梯度检测的原理

实际程序操作中可能会出现一些难以发现的小bug,这些bug甚至不会报错,但是会导致运行时间极度增加或者得不到正确的结果,梯度检测可以解决这一问题。

我们用双侧差分近似表示θi的偏导数:
在这里插入图片描述
注:双侧差分比单侧差分能更精准的表示导数
我们接下来要做的就是将用双侧差分算出来的每个θ的偏导数与用反向传播算出来的每一个θ的偏导数做比较,如果两个的值十分接近的话(只有几位小数的差距),说明我们的反向传播的代码是正确的

3.2梯度检测的使用步骤

  1. 使用反向传播函数计算D(1),D(2),D(3)
  2. 使用梯度检测,计算每一层中代价函数J关于每个权重θ的偏导数
  3. 检查它们的值是否几乎一样
  4. 检查完毕,正式进行迭代学习,此时一定要记得关闭梯度检测功能,因为梯度检测时间复杂度太大,而反向传播是一种高性能的计算导数的方法。这也是我们之前使用反向传播去更新参数θ的初衷

4 参数θ初始化

在Logistics回归中我们一般会将θ全部初始化为0,但是这在神经网络中是不可行的,因为这会导致隐层中的每一个神经元的值都是0,δ值也会全部相同,最后会导致:
在这里插入图片描述
则每次更新权重时,同一个神经元的权重总是会改变相同的值,又因为其初始值都为0,则在反向传播过程中,同一个神经元向后传播的权重总是相同,这会导致学习失败。
在这里插入图片描述
所以我们要使用随机参数初始化,如下图所示:
在这里插入图片描述

5 总结

  1. 首先要定义使用何种网络结构(层数,每层神经元数),其中输入神经元数等于x的维度,输出神经元数等于要分类的类数,单隐层是常见的形式,一般来说隐层中神经元个数越多越好。
  2. 随机初始化权重
  3. 使用前向传播
  4. 计算代价函数J
  5. 使用反向传播计算每一层中代价函数关于每个权重的偏导数
    在这里插入图片描述
  6. 使用梯度检测,检测上一步的方向传播代码是否正确
  7. 关闭梯度检测
  8. 现在已经有了计算代价函数的方法以及用反向传播计算偏导数的方法,我们可以使用梯度下降算法或者其他更先进的优化算法来迭代最小化代价函数J(Θ)

在神经网络中,代价函数J(Θ)不一定是凸函数,我们在迭代优化时可能会落入局部最小值,但是这不要紧,实验证明,我们即使没有收敛到全局最小值,也会收敛到一个和全局最小值很接近的局部最小值

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值