Coursera第五周---神经网络

最新推荐文章于 2021-04-27 19:01:52 发布

PHP的小白

最新推荐文章于 2021-04-27 19:01:52 发布

阅读量263

点赞数

分类专栏：机器学习文章标签： Coursera Marchine Learning

本文链接：https://blog.csdn.net/jeak2015/article/details/81841055

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

神经网络

Cost函数

假设神经网络的训练样本有m个，每个包含一组输入x和一组输出单元y，L代表神经网络的层数，SI代表每层neuron个数，Sl代表输出神经元个数，SL代表最后一层中处理单元的个数。
将神经网络的分类定义为两种：二分类，多分类

二分类：SL = 0，y = 0or1表示哪一类
多分类：SL = k，yi = 1表示分到第i类
这里写图片描述

视频中回顾了逻辑回归中的代价函数：

J(θ) = [∑y(i)*loghθ(x(i)) + (1 - y(i)) * log(1 - hθ(x(i))] / -m + λ*∑θ^2/2*m

在逻辑回归中，是有一个输出变量，又称为标量，也只有一个因变量y，而在神经网络中，可以有很多输出变量，hθ(x)可以是一个维度为k的向量，并训练集中的因变量也是一个同纬度的向量。
这里写图片描述
通过代价函数来观察算法预测的结果与真实情况的误差，对于每一行的特征，给出K个预测，运用循环，对每一行特征预测K个不同结果，然后再利用循环在K个预测中选择最可能性最高的一个，将其与y实际数据进行比较。
正则化项，计算的是除去每一层θ0后的θ矩阵和，里层的J循环，是循环所有的行，循环i是循环所有的列，即hθ(x)与真实值的距离为每个样本-每个类输出的加和，对参数进行正则化的偏差项处理所有参数的平方和。

反向传播

为了计算代价函数的偏导数这里写图片描述，采取一种反向传播算法，首先计算最后一层的误差，然后再一层一层反向求出各层的误差，直到倒数第二层。
下面举例：
训练集(x(1),y(1)),模型是四层的神经网络，其中K=4，SL=4，L=4

前向传播算法

这里写图片描述

反向传播算法是从最后一层的误差开始计算，误差是激活单元的预测与实际值之间的误差。用σ来表示误差，σ(4)=a(4) - y,利用误差值来计算前一层的误差：σ(3) = (θ(3)).T*σ(4)*g`(z(3));接着就是计算下层的误差，不计算第一层的误差。得到所有的误差表达式后，就可以计算代价函数的偏导数了，S.T.λ=0，代表不做正则化处理

这里写图片描述

l 代表目前所计算的第几层

j 代表目前计算层中的激活单元的下标

i 代表下一层中误差单元的下标，是受到权重矩阵中第i行影响的下一层的误差单元的下标。

反向传播算法伪代码：

这里写图片描述

首先用正向传播方法计算出每一层的激活单元，利用训练集的结果与神经网络预测的结果求出最后一层的误差，然后利用该误差运用反向传播计算出直至第二层的所有误差。
在计算出δ(l)之后，就可以计算出代价函数的偏导数，计算方法：
这里写图片描述

直观理解反向传播算法

前向传播

这里写图片描述

反向传播

这里写图片描述

梯度检验

当对一个复杂模型使用梯度下降时，可能会存在一些不容易察觉的错误，即虽然代价函数的值看上去在不断减小，但最终的结果可能不是最优解。

通过使用梯度的数值检验，来检验计算的导数值是否符合要求。

计算过程：

在代价函数上沿着切线方向选择两个非常近的点然后计算两个点的平均值用以估计梯度。即对某个特定的θ，计算出θ-ε处和θ+ε处的代价值，然后求两个代价的平均，用以估计在θ处的代价值。

这里写图片描述

当θ是一个向量时，则需要对偏导数进行检验，因为代价函数的偏导数检验只针对一个参数的改变进行检验。

这里写图片描述

根据上面所述，计算出的偏导数存储在矩阵D(l)中。检验时，需将矩阵展开成向量，同时也将θ矩阵展开成向量，针对每一个θ计算出一个近似的梯度值，存储于一个近似梯度矩阵中，计算出后与D(l)进行比较。

这里写图片描述

现在是补充内容：
在Coursera中吴恩达的机器学习视频中，在神经网络第一部分的多分类任务，其中激活函数使用的sigmoid函数，是使用二分类的方法：对于多分类中，任意选取一类，其余的全部归为另一类，依次下去，直至最后一类。
现在介绍使用softmax函数为激活函数，适用于多分类的任务：
softmax函数:

σ (z) j = e z j \sum e z k

$\sigma(z)_{j}=\frac {e^{z_{j}}}{\sum{e^z k}}$
这里写图片描述

softmax 把一个k维的real-value向量(a1,a2,a3,…)映射成一个(b1,b2,b3,…)
其中bi是一个0-1的常数，然后可以根据bi的大小进行多分类的任务。
例如：类别为4，线性分类器模型最后输出层包含四个输出值：
这里写图片描述

经过softmax处理后，数值转化为相对概率：
这里写图片描述

很明显，softmax的输出表示出不同类别间的相对概率。可以看到S1=0.8390，对应的概率最大，可以判断预测为第一类的可能性更大。

PHP的小白

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Coursera第五周---神经网络

神经网络Cost函数假设神经网络的训练样本有m个，每个包含一组输入x和一组输出单元y，L代表神经网络的层数，SI代表每层neuron个数，Sl代表输出神经元个数，SL代表最后一层中处理单元的个数。将神经网络的分类定义为两种：二分类，多分类二分类：SL = 0，y = 0or1表示哪一类多分类：SL = k，yi = 1表示分到第i类视频中回顾了逻辑回归中的代价函数：...
复制链接

扫一扫