记一下机器学习笔记多层感知机的反向传播算法

最新推荐文章于 2024-07-27 14:44:38 发布

Sibada_scut

最新推荐文章于 2024-07-27 14:44:38 发布

阅读量9.4k

点赞数 8

文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/qq_32611933/article/details/51612102

版权

《神经网络与机器学习》第4章前半段笔记以及其他地方看到的东西的混杂…第2、3章的内容比较古老预算先跳过。
不得不说幸亏反向传播的部分是《神机》里边人话比较多的部分，看的时候没有消化不良。

多层感知机

书里前三章的模型的局限都很明显，对于非线性可分问题苦手，甚至简单的异或都弄不了。于是多层感知机（也就是传说中的神经网络）就被发明了出来对付这个问题。

多层感知机就是由一系列的感知机，或者说神经元组成，每个神经元都接受若干的输入（树突）并产生一个输出（轴突）。
这些神经元被分成若干层，每一层的神经元的输出都被作为下一层的神经元的输入，直到最外一层。这时最外一层的输出就是整个神经网络的输出。

由于神经网络的神经元数目变多了，因此可存储的信息量也增加了，复杂度也提高了，可以解决一些更难的，感知机和LSM算法解决不了的问题。

神经网络工作原理

神经网络中，每个神经元都具备一系列权值参数和一个激活函数 $\phi(x)$ 。神经元的工作方式如下：
设一系列输入值为 $x_1,x_2,x_3,...,x_m$ ，权值参数为 $w_0,w_1,w_2,w_3,...,w_m$ ， $w_0$ 为偏置项。

定义局部诱导域 $v = w_0+w_1x_1+w_2x_2+...+w_mx_m = \textbf{w}^T\textbf{x}$ ，
其中 $\textbf{x}=[1,x_1,x_2,x_3,...,x_m]^T$ 为输入向量， $\textbf{w}=[w_0,w_1,w_2,w_3,...,w_m]^T$ 为权值向量。

然后激活函数将局部诱导域 $v$ 的值从整个实数集映射到某个需要的区间，作为神经元的输出值。比如激活函数为符号函数 $sign()$ 的话，那么就会使得当 $v$ 大于0时输出1，小于等于0时输出-1。
于是输出 $y=\phi(v) = \phi(\textbf{w}^T\textbf{x}) = \phi(w_0+w_1x_1+w_2x_2+...+w_mx_m)$

激活函数的形式有很多，最常用的是 $sigmoid$ 函数：

s i g m o i d (x) = 1 1 + e - a x

$sigmoid(x)=\frac{1}{1+e^{-ax}}$ 其中

a $a$ 为参数。它将输入值从实数集映射到0和1之间的范围内。
这里写图片描述

以及双曲正切函数：

t a n h (x) = e x - e - x e x + e - x

$tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$ 这个则是从实数集映射到-1到1之间。
这里写图片描述

于是整个神经网络的工作方式如下：

首先有一系列输入 $x_1,x_2,x_3,...,x_m$ ，加上作为偏置的1记为输入向量 $\textbf{x}$ ， $\textbf{x}=[1,x_1,x_2,x_3,...,x_m]^T$ 。
把 $\textbf{x}$ 输入给网络第一层的每个神经元各自产生输出，设第一层有p个神经元，那么就会产生p个输出 $y^1_1,y^1_2,y^1_3,...,y^1_p$ （上标1表示其出自第一层神经元）。
其中 $y^1_1 = \phi(v^1_1)=\phi(\textbf{w}_1^{1T}\textbf{x})$ ， $y^1_2 = \phi(v^1_2)=\phi(\textbf{w}_2^{1T}\textbf{x})$ ，…， $y^1_p = \phi(v^1_p)=\phi(\textbf{w}_p^{1T}\textbf{x})$ ，以此类推。（ $\textbf{w}_2^1$ 表示第一层的第二个神经元的权值向量）
这系列输出值组成第一层的输出向量 $\textbf{y}_1$ 。 $\textbf{y}_1=[y^1_1,y^1_2,...,y^1_p]^T$ 。
再把输出值向量像输入向量那样，前边带上1，组成第二层的输出向量 $\textbf{x}_1$ 。 x1=[1,y11,y12,.