神经网络简介
如图所示的图形分类问题,
像该图的像素为50*50,如果我们采用之前学过的logistic回归算法,会得到3万左右个特征,这样计算量过大,由此可见logistic回归不适合n很大的非线性假设。
人类大脑可以通过一些感官组织获取外界信息,并进行学习和处理它。神经网络也是如此。
上图就是神经网络的工作方式,layer1代表输入层、layer2代表隐蔽层、layer3代表输出层。
工作方式
首先我们要知道,ai(j)代表第j层的第i个神经元的激活项。
θ
\theta
θ(j)代表一个权重矩阵,控制某两层之间的映射。
g(…)代表logistic函数。
如果我们对上面的数据进行向量化处理,可得到下图的推导。这个推导过程叫前向传播。
要点:把
θ
\theta
θ*x看成z。通过输入层,计算出更复杂的特征作为下一层的输入,直到输出。
简单的例子
如上图,y=not(x1 xor x2),即只要x1和x2同时为0或1,就输出0。这样的逻辑式子我们如何通过神经网络实现呢。
首先我们从一个简单的and表达式开始
我们以x为输入,通过设置
θ
\theta
θ矩阵,即参数。就可以得到想要的输出结果。同样,调整一下参数,可以实现or的功能:
此外,我们还可以把这些简单的神经网络组合到一起,就可以其它的表达式。
多元分类
多元分类对应多元输出,不同的h
θ
\theta
θ(x)的值对应不同的输出。
代价函数
神经网络的代价函数和logistic回归的代价函数类似,只不过神经网络的输出有很多种,不仅仅是一种。所以对应的代价函数如下图:
反向传播算法
同线性回归一样,神经网络在参数优化过程中也会利用到一些算法,从而找出最佳的
θ
\theta
θ,使得代价函数取最小值。在这个优化过程中,我们需要计算出代价函数J(
θ
\theta
θ),和代价函数对每个
θ
\theta
θ的偏导值。这时,我们可以利用反向传播算法计算偏导值。
如图的例子,反向传播算法就是先计算出第4层的误差,然后利用该误差继续求第三层的,这样,一层层的计算下去。特别注意的是第一层是没有误差的。
具体步骤如下:
ps:矩阵向量化
A(:):将矩阵A中的每列合并成一个长的列向量。
梯度检测
利用前向传播和反向传播计算导数。
该图是一种梯度数值估计的方法,它在
θ
\theta
θ的两边各取一个点,求两点间代价函数的斜率。斜率就是该
θ
\theta
θ导数的近似值。如果
θ
\theta
θ是一个多维向量,则对应的梯度如下图:
它在MATLAB对应的代码如下:
用该方法计算出代价函数所有参数的偏导数gradApprox和反向传播的偏导数DVec进行对比,如果两个值近似,则证明反向传播的实现是正确的。
随机初始化
在求解梯度下降等算法过程中我们通常需要一个初始的
θ
\theta
θ。对于线性回归问题,该初始值等于0是被允许的,而在训练网络时,初始值能等于0吗?当然是不可以的,下面的例子就说明了这种问题。
这样的神经网络,无论怎么更新,所有隐藏单元的输入都是一样的,最后的输出也只计算了一种特征,该网络就学习不到新颖的东西。这就要用但随机初始化。
神经网络总结
神经网络的设计步骤如下:1.选择相应的神经网络结构。
有多少特征就有多少个输入,有多少种类别就有多少输出。
2.训练神经网络
大致是设定权重、前向传播计算输出、计算代价函数、反向传播计算梯度、进行梯度检测(检测完成后,记住要删掉检测代码,因为该代码运算量巨大),利用梯度下降等优化算法计算出最小化代价函数和对应的
θ
\theta
θ。