深度学习（一）——MP神经元模型, BP算法, 神经元激活函数, Dropout

最新推荐文章于 2025-05-04 16:17:21 发布

antkillerfarm

最新推荐文章于 2025-05-04 16:17:21 发布

阅读量5.3w

点赞数 35

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/antkillerfarm/article/details/74187428

版权

深度学习专栏收录该内容

47 篇文章

订阅专栏

https://antkillerfarm.github.io/

前言

神经网络本质上不是什么新东西。十年前，我还在上学的时候，就接触过皮毛。然而那时这玩意更多的还是学术界的屠龙之术，工业界几乎没有涉及。

及至近日重新拾起，方才发现，这十年正是神经网络蓬勃发展，逐渐进入应用阶段的十年。各种概念层出不穷，远非昔日模样。

Deep Learning虽然在学术界的大牛看来，属于旧概念的炒作。然而由于神经网络本身的非线性和连接的复杂性，其中的概念的确比一般的浅层算法复杂的多，从这个角度来说，称其为Deep，也算有些道理。

这里最主要的参考文献包括：

《机器学习》，周志华著。

《Deep Learning Tutorial》，李宏毅著（台湾大学电机工程学助理教授）。

http://www.useit.com.cn/thread-13132-1-1.html

《Deep Learning》，Ian Goodfellow、Yoshua Bengio、Aaron Courville著。

原版：

http://www.deeplearningbook.org/

中文版：

https://github.com/exacity/deeplearningbook-chinese

注：这本书基于markdown文件，使用tex编译而成，可作为编写大型书的代码参考项目。
安装方法：
sudo apt install texlive-xetex texlive-lang-chinese texlive-science xindy
make

其他参考文献将在各相关部分列出。

Deep Learning圈子的主要人物：

这里写图片描述

注：Yann LeCun，1960年生，法国科学家。Pierre and Marie Curie University博士。Geoffrey Hinton是他博士后时代的导师。CNN的发明人。纽约大学教授，Facebook AI研究所主任。由于他的姓名发音非常东方化，因此被网友起了很多中文名如燕乐存、杨乐康等。2017.3，Yann访华期间正式公布中文名：杨立昆。

Léon Bottou，法国科学家，随机梯度下降算法的发明人。

Yoshua Bengio，1964年生，法国出生的加拿大科学家。深度学习的另一个宗师。

这三个法国佬，都是好基友。只不过Yann LeCun和Yoshua Bengio研究神经网络，而Léon Bottou研究SVM，学术上分属不同派系。

Geoffrey Everest Hinton，1947年生，英国出生的加拿大科学家，爱丁堡大学博士，多伦多大学教授。连接主义的代表人物，多层神经网络的宗师。英国皇家学会会员。

一般将Geoffrey Hinton、Yann LeCun和Yoshua Bengio并称为深度学习的三大宗师。

MP神经元模型

MP神经元模型是1943年，由Warren McCulloch和Walter Pitts提出的。

注：Warren Sturgis McCulloch，1898~1969，美国神经生理学和控制论科学家。哥伦比亚大学博士，先后执教于MIT、Yale、芝加哥大学。

Walter Harry Pitts, Jr.，1923~1969，美国计算神经学科学家。
这个人的经历，实在是非典型。家里贫穷，大约是读不起大学，15岁的时候，到芝加哥大学旁听Bertrand Russell的讲座。Russell很看重这个年轻人，但由于他只是访问学者，于是在回国之前，将Pitts介绍给Rudolf Carnap，后者为Pitts安排了一份在学校打杂的工作。这一打杂就是五六年时间，最后凭借论文，获得芝加哥大学的准学士学位（因为他始终都不是正式学籍的学生），这也是他一生唯一的学位。
但是如果看看Pitts的合作者的阵容，就知道Pitts水平之高了。他们是：Warren McCulloch、Jerome Lettvin、Norbert Wiener。

MP神经元模型如下图所示：

这里写图片描述

即：

$y_j=f\left(\sum _{i=1}^nw_{ij}x_i-\theta_j\right)$

f被称为称为激活函数(Activation Function)或转移函数(Transfer Function)，用以提供非线性表达能力。f的参数其实就是《机器学习（一）》中提到的逻辑回归。

生物神经元和MP神经元模型的对应关系如下表：

生物神经元	MP神经元模型
神经元	$j$
输入信号	$x_i$
权值	$w_{ij}$
输出信号	$y_j$
总和	$\sum$
膜电位	$\sum _{i=1}^nw_{ij}x_i$
阈值	$\theta_j$

从上图亦可看出，如果将阈值看作输入为-1.0的哑节点的连接权重，则权重和阈值可统一为权重。神经网络训练的过程，实际上就是根据样本调整权重和阈值的过程。

参考：

http://blog.csdn.net/u013007900/article/details/50066315

单层感知器 vs. 多层感知器

神经网络的层数越多，其表达力越丰富，如下表所示：

这里写图片描述

ANN简史

这里写图片描述

BP算法

误差逆传播（error BackPropagation）算法最早由Paul J. Werbos于1974年提出，然而此时正值ANN的低谷，未得到人们的重视。因此到了1986年时，由David Everett Rumelhart重新发明了该算法。

注：Paul J. Werbos，1947年生，哈佛大学博士。

David Everett Rumelhart，1942~2011，美国心理学家。斯坦福大学博士，先后执教于UCSD和斯坦福。美国科学院院士。

这里写图片描述

BP算法的核心思路：

1.利用前向传导公式，计算第n层输出值。

2.计算输出值和实际值的残差。

3.将残差梯度传递回第 $n-1,n-2,\dots,2$ 层，并修正各层参数。（即所谓的误差逆传播）

BP算法的推导过程教材已经写的很好了，这里只对要点做一个摘录。

链式法则

Chain Rules本来是微积分中，用于求一个复合函数导数的常用法则。这里用来进行残差梯度的逆传播。

由《机器学习（一）》的公式3可得：

$\Delta w_{hj}=-\eta\frac{\partial E_k}{\partial w_{hj}}$

$w_{hj}$ 先影响 $\beta_j$ ，再影响 $\hat y_j^k$ ，然后影响误差 $E_k$ ，因此有：

$\frac{\partial E_k}{\partial w_{hj}}=\frac{\partial E_k}{\partial \hat y_j^k}\cdot \frac{\partial \hat y_j^k}{\partial \beta_j}\cdot \frac{\partial \beta_j}{\partial w_{hj}}\tag{1}$

这里写图片描述

随机初始化

神经网络的参数的随机初始化的目的是使对称失效。否则的话，所有对称结点的权重都一致，也就无法区分并学习了。

BP算法的缺点

虽然传统的BP算法，理论上可以支持任意深度的神经网络。然而实际使用中，却很少能支持3层以上的神经网络。

这里写图片描述

如上图所示，sigmoid函数不是线性的，一个小的输出值的改变，对应了比较大的输入值改变。换句话说，就是输出值的梯度较大，而输入值的梯度较小。而梯度在基于梯度下降的优化问题中，是至关重要的。

随着层数的增多，反向传递的残差梯度会越来越小，这样的现象，被称作梯度消失（Vanishing Gradient）。它导致的结果是，虽然靠近输出端的神经网络已经训练好了，但输入端的神经网络仍处于随机状态。也就是说，靠近输入端的神经网络，有和没有都是一样的效果，完全体现不了深度神经网络的优越性。

和梯度消失相反的概念是梯度爆炸（Vanishing Explode），也就是神经网络无法收敛。