深度学习（一）：神经元模型、感知机与BP算法

最新推荐文章于 2023-09-19 14:23:22 发布

tanghonghanhaoli

最新推荐文章于 2023-09-19 14:23:22 发布

阅读量1w

点赞数 7

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/tanghonghanhaoli/article/details/88840841

版权

本文介绍了神经元模型，强调了激活函数在非线性转换中的重要性，讨论了感知机和多层网络在逻辑运算中的应用，并详细阐述了误差逆传播（BP）算法在多层前馈神经网络中的学习过程。

摘要由CSDN通过智能技术生成

下面内容主要来自西瓜书的第五章《神经网络》5.1~5.3节。

文章目录

1、神经元模型

这一节简单，讲了两个概念，神经元模型以及激活函数。先来看神经元模型吧。
在这里插入图片描述
因此，第 $j$ 个神经元的输出为
$y_j=f(\Sigma_{i=1}^n w_{ij}x_i-\theta)=f(\Sigma_{i=0}^n w_{ij}x_i)$ 其中 $x_i$ 为第 $i$ 个输入， $w_{i,j}$ 为第 $j$ 个神经元第 $i$ 个输入的权重， $\theta$ 为门限，且 $x_0=-1,w_{0j}=\theta$ 。
上面图和式子里面的 $f(\cdot)$ 为激活函数。引用网上博客说明为何要采用激活函数：

如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层节点的输入都是上层输出的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了，那么网络的逼近能力就相当有限。正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络表达能力就更加强大（不再是输入的线性组合，而是几乎可以逼近任意函数）。

作者：StevenSun2014
来源：CSDN
原文：https://blog.csdn.net/tyhj_sf/article/details/79932893
版权声明：本文为博主原创文章，转载请附上博文链接！

同一篇博客里面指出，早期研究神经网络主要采用sigmoid函数或者tanh函数，输出有界，很容易充当下一层的输入。
近些年Relu函数及其改进型（如Leaky-ReLU、P-ReLU、R-ReLU等）在多层神经网络中应用比较多。这里先只看sigmoid函数吧。
在这里插入图片描述
上面是函数图形，其表达式为
${\rm sigmoid}(x)=\frac{1}{1+e^x}.$

2、感知机与多层网络

这个部分，我觉得可以跟花书上面6.1《实例：学习XOR》结合起来理解。先按照西瓜书上的表达，我们看如何用包含两层神经元的感知机来完成两个输入的逻辑运算。两层神经元感知机的结构示意图如下：
在这里插入图片描述
这里我们假定激活函数为符号函数，即 $y={\rm sgn}({\bf x}^{\rm T}{\bf w} )$ 。下面我们两个输入神经元分别为 $x_1,x_2$ ，而 $x_0=-1$ ， $w_0$ 为门限，即 ${\bf x}=[-1 \ x_1\ x_2]^{\rm T}$ 以及 ${\bf w}=[\theta \ w_1\ w_2]^{\rm T}$ 。
下面我们来实现逻辑运算：

“and”： ${\bf w}=[2,1,1]^{\rm T}$
“or” ： ${\bf w}=[0.5,1,1]^{\rm T}$
“not” ： ${\bf w}=[0.5, -1.2, 0]^{\rm T}$

到目前为止，都很顺利。事实上，学习的过程就是逐步调整权重系数向量 $\bf w$ 的过程。对于训练样例 $({\bf x},y)$ ，若当前感知机的输出为 $\hat y$ ，则如下来调整感知机权重：
$w_i\leftarrow w_i+\Delta w_i$ $\Delta w_i=\eta(y-\hat y)x_i.$
西瓜书上谈到，这种只拥有一层功能神经元（即只有输出层神经元进行激活函数处理）的感知机，学习能力非常有限。对于异或运算这类简单的“非线性可分问题”，这样的感知机也没法解决。下面我们切换到花书上，看看《6.1 实例：学习XOR》。

XOR函数提供了我们想要学习的目标函数 $y=f^*(x)$ 。我们的模型给出了一个函数 $y=f(\bf x;\bm \theta)$ ，并且我们的学习算法会不断调整参数 $\bm \theta$ 来使得 $f$ 尽可能接近 $f^*$ 。尽管对于二进制而言，MSE并不是一个合适的代价函数，我们还是先从MSE开始（anyway, we need to start）：
$J({\bf w})=\frac{1}{4}\Sigma_{x\in \mathbb X}[f^*({\bf x})-f({\bf x; \bm \theta})]^2$ 下面我们来确定 $f(\bf x;\bm \theta)$ 的形式。我们选用线性模型，即
$f({\bf x;w},b)={\bf x}^{\rm T}{\bf w}+b.$ 跟上面一样，这个模型没法学习XOR，不过用的方法不一样。西瓜书里面画了超平面，花书里面是这样说明的：如果 $x_1=0$ ，那么输出是随着 $x_2$ 的增大而增大；但如果 $x_1=1$ ，那么输出是随着 $x_2$ 的增大而减小。可是 $x_2$ 的系数是固定的，线性模型不能随着 $x_1$ 的改变来改变 $x_2$ 的系数，所以这个问题就搞不定了。

所以书中指出，如果从下面这个空间里面去学习，是能够学出来的。下面的问题就是如何把原来空间变换成这个空间。在这里插入图片描述

下面我们来学习XOR。我们引入一个非常简单的

最低0.47元/天解锁文章

tanghonghanhaoli

关注

7
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
深度学习（一）：神经元模型、感知机与BP算法

下面内容主要来自西瓜书的第五章《神经网络》5.1~5.3节。文章目录1、神经元模型2、感知机与多层网络3、误差逆传播(error back propagation，BP)算法1、神经元模型这一节简单，讲了两个概念，神经元模型以及激活函数。先来看神经元模型吧。因此，第jjj个神经元的输出为yj=f(Σi=1nwijxi−θ)=f(Σi=0nwijxi)y_j=f(\Sigma_{i...
复制链接

扫一扫

专栏目录