吴恩达机器学习入门——神经网络

最新推荐文章于 2024-03-06 02:25:04 发布

qq_42100113

最新推荐文章于 2024-03-06 02:25:04 发布

阅读量152

点赞数

本文链接：https://blog.csdn.net/qq_42100113/article/details/100936746

版权

吴恩达机器学习入门——神经网络

神经网络简介
工作方式
简单的例子
多元分类
代价函数
反向传播算法
梯度检测
随机初始化
神经网络总结

神经网络简介

如图所示的图形分类问题，

像该图的像素为50*50，如果我们采用之前学过的logistic回归算法，会得到3万左右个特征，这样计算量过大，由此可见logistic回归不适合n很大的非线性假设。
人类大脑可以通过一些感官组织获取外界信息，并进行学习和处理它。神经网络也是如此。
在这里插入图片描述
上图就是神经网络的工作方式，layer1代表输入层、layer2代表隐蔽层、layer3代表输出层。

工作方式

在这里插入图片描述
首先我们要知道，a_i^（j）代表第j层的第i个神经元的激活项。
$\theta$ ^(j)代表一个权重矩阵，控制某两层之间的映射。
g(…)代表logistic函数。
如果我们对上面的数据进行向量化处理，可得到下图的推导。这个推导过程叫前向传播。 在这里插入图片描述
要点：把 $\theta$ *x看成z。通过输入层，计算出更复杂的特征作为下一层的输入，直到输出。

简单的例子

在这里插入图片描述
如上图，y=not（x1 xor x2），即只要x1和x2同时为0或1，就输出0。这样的逻辑式子我们如何通过神经网络实现呢。
首先我们从一个简单的and表达式开始

我们以x为输入，通过设置 $\theta$ 矩阵，即参数。就可以得到想要的输出结果。同样，调整一下参数，可以实现or的功能：
在这里插入图片描述
此外，我们还可以把这些简单的神经网络组合到一起，就可以其它的表达式。

多元分类

在这里插入图片描述
多元分类对应多元输出，不同的h_$\theta$（x）的值对应不同的输出。

代价函数

神经网络的代价函数和logistic回归的代价函数类似，只不过神经网络的输出有很多种，不仅仅是一种。所以对应的代价函数如下图：在这里插入图片描述

反向传播算法

同线性回归一样，神经网络在参数优化过程中也会利用到一些算法，从而找出最佳的 $\theta$ ，使得代价函数取最小值。在这个优化过程中，我们需要计算出代价函数J（ $\theta$ ），和代价函数对每个 $\theta$ 的偏导值。这时，我们可以利用反向传播算法计算偏导值。
在这里插入图片描述
如图的例子，反向传播算法就是先计算出第4层的误差，然后利用该误差继续求第三层的，这样，一层层的计算下去。特别注意的是第一层是没有误差的。
具体步骤如下：

ps：矩阵向量化
A(:)：将矩阵A中的每列合并成一个长的列向量。

梯度检测

利用前向传播和反向传播计算导数。
在这里插入图片描述
该图是一种梯度数值估计的方法，它在 $\theta$ 的两边各取一个点，求两点间代价函数的斜率。斜率就是该 $\theta$ 导数的近似值。如果 $\theta$ 是一个多维向量，则对应的梯度如下图：

它在MATLAB对应的代码如下：
在这里插入图片描述
用该方法计算出代价函数所有参数的偏导数gradApprox和反向传播的偏导数DVec进行对比，如果两个值近似，则证明反向传播的实现是正确的。

随机初始化

在这里插入图片描述
在求解梯度下降等算法过程中我们通常需要一个初始的 $\theta$ 。对于线性回归问题，该初始值等于0是被允许的，而在训练网络时，初始值能等于0吗？当然是不可以的，下面的例子就说明了这种问题。
这样的神经网络，无论怎么更新，所有隐藏单元的输入都是一样的，最后的输出也只计算了一种特征，该网络就学习不到新颖的东西。这就要用但随机初始化。
在这里插入图片描述

神经网络总结

神经网络的设计步骤如下:1.选择相应的神经网络结构。
在这里插入图片描述
有多少特征就有多少个输入，有多少种类别就有多少输出。
2.训练神经网络

大致是设定权重、前向传播计算输出、计算代价函数、反向传播计算梯度、进行梯度检测（检测完成后，记住要删掉检测代码，因为该代码运算量巨大），利用梯度下降等优化算法计算出最小化代价函数和对应的 $\theta$ 。

qq_42100113

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习入门——神经网络

吴恩达机器学习入门——神经网络神经网络简介工作方式神经网络简介如图所示的图形分类问题，像该图的像素为50*50，如果我们采用之前学过的logistic回归算法，会得到3万左右个特征，这样计算量过大，由此可见logistic回归不适合n很大的非线性假设。人类大脑可以通过一些感官组织获取外界信息，并进行学习和处理它。神经网络也是如此。上图就是神经网络的工作方式，layer1代表输入层、l...
复制链接

扫一扫