机器学习入门（一）初步认识了解神经网络

最新推荐文章于 2024-07-13 11:10:11 发布

qq_39762138

最新推荐文章于 2024-07-13 11:10:11 发布

阅读量215

点赞数

分类专栏：神经网络学习文章标签：神经网络

本文链接：https://blog.csdn.net/qq_39762138/article/details/99976927

版权

神经网络学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

阅读内容来自http://neuralnetworksanddeeplearning.com/chap1.html，全英文，但是阅读难度不高。文风比较随性，不是很严谨，个人随笔向，不太好翻译的词都采用了英文，大家看看就好，不要喷我，hh~爱你们，么么哒(づ￣ 3￣)づ

第一章：建立神经网络识别数字

1.1 Perceptrons
Perceptrons，感知机，20世纪60年代由Frank Rosenblatt在前人研究成果上发展起来。要理解当今使用程度更为广泛的sigmoid neuron，就必须先讨论一下perceptron.多个二进制输入，单个二进制输出。本例中有三个输入，通常情况下可以更多或更少。

Rosenblatt提出了一种简单的规则来计算输出——权重。权重代表各个输入对输出的重要程度/比重/贡献度/whatever，
在这里插入图片描述
以上就是感知机的基本数学模型。权重一定程度上代表了一种倾向度/意愿

再看这个图，第一层神经元做出了三个很简单的决策，第二层神经员根据上层神经元的决策，与本层设置的权重进行第二层的计算。第二层的内容会更抽象与复杂，以此类推。最终得出一些微妙，精巧的决策。
让我们回到perceptron，在这里插入图片描述
这个条件一定程度上显得笨拙，我们可以简化一下，简化为两个向量的点积，w·x，w代表权重，x代表输入，把阈值移动到左侧，简化为b，b=-threshold，

理解成输入带来的影响是否能够激活神经元。
perceptron也可以代表基本的逻辑运算，通过与非门可实现任何逻辑门（这里就不引申了）
1.2 sigmoid neurons
在这里插入图片描述
如上图所示，当神经网络建立后，如果进行了一次学识别，输出为8，但是实际上本次输入是一张数字9的图片的像素数据，因此我们希望更改其中的某个权重，以调节输出。但实际上任何一个微小的改变都会造成输出的巨大变化，因此实际上很难找到正确的神经元来调整权重以调整最终的输出。因此，我们提出了一种新的形态的虚拟神经元——sigmoid neuron。目的是为了保证微小改变只带来输出的微小改变。
在这里插入图片描述
同描述perceptron一样，我们采用同一张示意图。三个输入，x1,x2,x3，一个输出。输出值为0或1。
sigmoid neuron的作用形式为
即

形式显得生硬和陌生，初看似乎很难发现这个表达式的含义。
但我们假设输入值z，数值较大，那么取反，经过以自然底数为底的指数函数作用，并+1取倒数后，就会显得很靠近1。另一方面，如果非常小，那么输出就会接近0，其本质是一个自我归一化的过程
在这里插入图片描述
绘制出函数图，我们看到这样的趋势。

它和阶跃函数一定程度上有一些相似。sigmoid neuron是平滑过的perceptron neuron，平滑带来的意义即之前提到的要求——微小的输入变化造成微小的输出变化。

输出的变化值有如上关系，他们的关系是线性的，因此在调整输出上，更为方便。
ps:sigmoid neuron 所有的权重和偏差同时乘上同一个大于0的常数，输出是不会发生改变的

1.3 神经网络名词定义
假设有神经网络如下：
在这里插入图片描述
最左侧为输入，最右侧为输出，相应的是输入神经元和输出神经元，中间的称为隐层。对于这样的结构，虽然神经元为sigmoid neuron，也有称之为多层感知机结构的说法（MLPs）。设计隐层的过程是较为复杂的，许多前人已经提出了一些较为可靠的构想，以及设计的理念。
文章提到了一种允许反馈网络存在的神经网络结构——recurrent neural networks（递归神经网络）。该模型的理念是，在有限的时间内，允许神经元输出，之后将进入不活动状态。这些神经元可以激励其他神经元进入一定时间的活跃状态，进入激励更多的神经元，一段时间后我们得到了瀑布一般的激励状态，这种方法可以避免反馈环带来的持续性作用影响，因为神经元对接受他激励的神经元只作用一段时间。递归神经网络相比前馈神经网络的学习能力要差一些，但是他一定程度上更接近人脑的思考方式。
1.4 识别数字的神经网络处理
在这里插入图片描述
识别数字采用如图所示的三层神经网络。输入采用28*28像素点点的图片构成784的像素灰度矩阵，1代表黑色，0代表白色，介于中间的数值代表灰色。
定义输入向量x,期望输出向量y，y与x的实际输出a做均方误差
在这里插入图片描述
目标就是通过梯度下降法，找到这样的权重w和偏差b，让C逼近0，达到预期的估计效果。
我们定义改变其中某些变量带来的均方差如下：

定义变量变化：

定义均方差的梯度为

定义，该比例系数为学习速率，
在这里插入图片描述
因此，均方差变化值为

这样，无论如何变化，都能保证均方差一直在减小

因此v的变化就如上图所示