吴恩达机器学习笔记——九、部署自己的神经网络
1 代价函数
此处以解决分类问题为例来研究神经网络的代价函数
1.1 符号定义
L:神经网络的总层数
Sl:第l层的神经元个数
K:输出层神经元个数(对于二分类问题,K=1;对于多分类问题,K≥3)
δj(l):第l层,第j个神经元的误差
aj(l):第l层第j个神经元的激活函数
Θij(l):第l-1层的第j个神经元向第l层的第i个神经元传播时的权重值(不理解的可以看上一篇文章)
1.2 代价函数定义
我们首先回顾一下多分类中神经网络的输出:
再回顾一下Logistics回归中代价函数的定义:
下面我们给出用神经网络处理分类问题时的代价函数:
发现此时的代价函数和Logistics回归中的加入正则化项的代价函数等价。其中K表示要划分的类的个数,hΘ(x)是K维向量,(hΘ(x))i表示其第i个元素。
2 反向传播算法
依旧利用梯度下降算法的思想,为了最小化代价函数J(Θ),则要计算以下偏导数:
2.1 假设只有一个训练样本的情况
- 首先对其前向传播过程进行计算:
- 求其最后层(输出层)的误差:
也可以将最后一层的误差用向量化的形式表达:
- 计算其他层的误差(向量化表达)
我们不用算第一层的误差,因为第一层是输入层
其中“ .*”表示两个矩阵对应元素相乘
g’(z(3))是在输入为z(3)时对激活函数求导,其值等于:
- 即:g’(z(l)) = a(l) .* (1-a(l))
- 而当λ=0时,我们有:
2.2 一般情况(m个训练样本)
- 其中红字是对应框内的向量化表达;
- j=0时表示常数偏置单元,不需要对其进行正则化,所以分开讨论;
- 其中i表示第i个训练样本,l表示神经网络的第l层,j表示第j个神经元;
- Δ是新定义的变量,作为累加项,用来表示和计算将来的偏导。
- 在前向传播和反向传播中每次只用一次样本
- Θ(1)、Θ(2)、D(1)、D(2)都是矩阵
通过数学推导,可以证明:代价函数的偏导数正是D:
2.3 反向传播的理解
- δj(l)衡量了在第l层第j个单元,激活项aj(l)的误差
- δ衡量了为了影响这些中间值,我们想要改变神经网络中的权重的程度。
- 我们用反向传播算法其实就是为了计算这个值:
3 梯度检测
3.1 梯度检测的原理
实际程序操作中可能会出现一些难以发现的小bug,这些bug甚至不会报错,但是会导致运行时间极度增加或者得不到正确的结果,梯度检测可以解决这一问题。
我们用双侧差分近似表示θi的偏导数:
注:双侧差分比单侧差分能更精准的表示导数
我们接下来要做的就是将用双侧差分算出来的每个θ的偏导数与用反向传播算出来的每一个θ的偏导数做比较,如果两个的值十分接近的话(只有几位小数的差距),说明我们的反向传播的代码是正确的
3.2梯度检测的使用步骤
- 使用反向传播函数计算D(1),D(2),D(3)…
- 使用梯度检测,计算每一层中代价函数J关于每个权重θ的偏导数
- 检查它们的值是否几乎一样
- 检查完毕,正式进行迭代学习,此时一定要记得关闭梯度检测功能,因为梯度检测时间复杂度太大,而反向传播是一种高性能的计算导数的方法。这也是我们之前使用反向传播去更新参数θ的初衷
4 参数θ初始化
在Logistics回归中我们一般会将θ全部初始化为0,但是这在神经网络中是不可行的,因为这会导致隐层中的每一个神经元的值都是0,δ值也会全部相同,最后会导致:
则每次更新权重时,同一个神经元的权重总是会改变相同的值,又因为其初始值都为0,则在反向传播过程中,同一个神经元向后传播的权重总是相同,这会导致学习失败。
所以我们要使用随机参数初始化,如下图所示:
5 总结
- 首先要定义使用何种网络结构(层数,每层神经元数),其中输入神经元数等于x的维度,输出神经元数等于要分类的类数,单隐层是常见的形式,一般来说隐层中神经元个数越多越好。
- 随机初始化权重
- 使用前向传播
- 计算代价函数J
- 使用反向传播计算每一层中代价函数关于每个权重的偏导数
- 使用梯度检测,检测上一步的方向传播代码是否正确
- 关闭梯度检测
- 现在已经有了计算代价函数的方法以及用反向传播计算偏导数的方法,我们可以使用梯度下降算法或者其他更先进的优化算法来迭代最小化代价函数J(Θ)
在神经网络中,代价函数J(Θ)不一定是凸函数,我们在迭代优化时可能会落入局部最小值,但是这不要紧,实验证明,我们即使没有收敛到全局最小值,也会收敛到一个和全局最小值很接近的局部最小值