理解深度学习基础——神经网络的起源和发展

0. 写在前面

初学深度学习脑海中难免会有这些疑问,记录下来以供自己学习:

为什么要研究神经元?
人工神经元是如何构造出来的?
为什么一个人工神经元神经元有多个输入,却只有一个输入?
如何让人工神经元具有学习能力
前馈神经网络和MLP的区别和联系?

1. 大脑神经网络和人工神经元

1.1 大脑神经元

(1)大脑:智能中心

  • 重要性
    人类的智能行为都和大脑 活动有关。人类大脑是一个可以产生意识、思想和情感的器官。
  • 复杂性
    人类大脑是人体最复杂的器官,由神经元、神经胶质细胞、神经干细胞和血管组成。
    人脑神经系统是一个非常复杂的组织,包含近860亿个神经元 [Azevedo et al., 2009],每个神经元有上千个突触和其它神经元相连接。

(2)大脑神经元:智能的基本单位

在这里插入图片描述

神经元(Neuron),也叫神经细胞(Nerve Cell),是携带和传输信息的细胞,是人脑神经系统中最基本的单元

  • 具有输入和输出
    神经元可以接受其它神经元的信息,也可以发送信息给其它神经元。

  • 只输出两种状态
    一个神经元可被视为一种只有两种状态的细胞:兴奋或抑制。(以前看这句话觉得可有可无,现在不了)
    神经元的状态取决于从其它的神经细胞收到的输入信号量,及突触强度(抑制或加强)。当信号量总和 超过了某个阈值时,细胞体就会兴奋,产生电脉冲。电脉冲沿着轴突并通过突 触传递到其它神经元。

    从这两点可以看出:

    一个神经元可以有多个输出却只有一个输出——要么兴奋要么抑制(1或0)
    一个神经元所接受的实际信息受到输入信号的量和突出强度决定,而其输出除此之外还受到阈值的控制。

人工神经元的设计依据的也就是这。(理解上述第一点内容极度重要,是关键!这也是激活函数至关重要的原因!)

在这里插入图片描述

(3)大脑/神经元的学习

所谓的人类”智能”并非全靠天生决定,那么人脑神经网络又是如何学习的?
在人脑神经网络中,每个神经元本身并不重要,重要的是神经元如何组成联接。不同神经元之间的突触有强有弱,其强度是可以通过学习(训练)来不 断改变的,具有一定的可塑性。

两点疑问:
首先,如定义人脑神经网络的 “学习”
其次
*,学习的内容是什么**?*

“当神经元 A的一个轴突和神经元B很近, 足以对它产生影响,并且持续地、重复地参与了对神经元 B 的兴奋,那么在这 两个神经元或其中之一会发生某种生长过程或新陈代谢变化,以致于神经元 A作为能使神经元 B 兴奋的细胞之一,它的效能加强了。”这个机制称为赫布理论(Hebbian Theory)或赫布法则(Hebb’s Rule)。

如果两个神经元总是相关联地受到刺激,它们之间的突触强度增加。这样的学习方法被称为赫布型学习(Hebbian learning)。

一句话:人脑神经元之间的“学习”就是根据外界环境的不同而改变突触强度的一个过程,学习的对象也就是突出的强度。

人工神经元的学习也是依据的这。

1.2 人工神经元

人工神经网络是一种模拟人脑神经网络而设计的数据模型或计算模型,它从结构、实现机理和功能上模拟人脑神经网络。

人工神经网络与生物神经元类 似,由多个节点(人工神经元)相互连接而成,可以用来对数据之间的复杂关 系进行建模。不同节点之间的连接被赋予了不同的权重,每个权重代表了一个 节点对另一个节点的影响大小。每个节点代表一种特定函数,来自其他节点的 信息经过其相应的权重综合计算,输入到一个激励函数中并得到一个新的活性值(兴奋或抑制)。从系统观点看,人工神经元网络是由大量神经元通过极其丰 富和完善的连接而构成的自适应非线性动态系统。

简而言之,人工神经元是完全参照人脑神经元的功能结构来设计的(当然也可能只是模仿到了皮毛):

(1)结构

  • 输入信息——输入值

  • 突触强度——权重

  • 状态阈值——偏置 (注:神经网络的偏置(阈值)的意义

  • 输出状态——激活值/活性值

  • 一个神经元——一个特定函数

关于“结构”部分,人类最初的成果便是形式神经元模型(M-P模型)

(2)功能

  • 学习
  • 认知

关于“功能-学习”部分,人类初期的成果便是感知器(当时受到“无法解决线性不可分”问题的挑战,这个问题被后来提出的反向传播算法解决);
关于“功能-认知”部分,可能早期的成果便是卷积神经网络等。

接下来,让我们正式梳理一下神经网络的发展过程。

2. 神经网络的发展

神经网络的发展

2.0 历史线:

  • 1943:提出形式神经元模型(M-P模型)——开启了神经网络研究的序幕,实质意义是人脑神经网络的物理实现(首个通过模仿神经元而形成的模型);

  • 1958:提出感知器(Perceptron)——意味着人工神经网络开始有了简单的“学习”能力:感知器能够通过训练自动确定参数(修正误差学习);

  • 1969:提出感知器无法解决线性不可分问题——促使感知器向多层次发展;

  • 二十世纪八十年代带:
    ① 186 反向传播算法——通过设置多层感知器解决了线性不可分问题:有效地解决了多层神经网络的学习问题,并成为最为流行的神经网络学习算法;

    ② 神经认知机
    ③ 卷积神经网络

  • SVM雄起,神经网络低潮

  • 2006年:逐层预训练+反向传播算法

2.1 M-P 模型

M-P模型是肯个通过模仿神经元而形成的模型。

在这里插入图片描述

其中, wi为连接权重,h 为阈值,xi表示等多个输出节点,y为输出(0或1)

(1)可以用M-P 模型来实现基本逻辑运算:

  • 取反/NOT(单输入单输出)
    如果输入0则输出1,输出1则输出0;
    带入M-P模型公式,可以求取出w和h分别为 -2和 -1
  • 逻辑或/OR(双输入单输出)
    根据下表,带入M-P公式得:w1、w2和 h分别为 1、1和 -0.5
  • 逻辑与/AND(双输入单输出)
    同理,根据下表,带入M-P公式得:w1、w2和 h分别为 1、1和 -1.5
    在这里插入图片描述
    (以前一直不知道到这玩意是用来干什么的以及能有什么用)

(2)M-P 模型小结:

  1. 多输入单输出
  2. 参数由人为事先计算后确定

2.2 感知器

逻辑运算符 Wi和 h 的组合并不仅仅限于前面提到的这 几种。罗森布拉特提出的感知器能够根据训练样本向动获取样本的组合。

与 M-P 模型 需要人为确定参数不同,感知器能够通过训练自动确定参数
训练方式为有监督学习,即需要设定训练样本和期望输出,然后调整实际输出和 期望输出之差的方式(误差修正学习)。

在这里插入图片描述(这里有待进一步深入)

感知器无法处理线性不可分问题(无法用一条直线将两个类别区分开)。

在这里插入图片描述

2.3 多层感知机

为了解决线性不可分等更复杂的问题,人们提出了 多层感知器 ( multilayer perceptron )模型。多层感知器指的是由多层结构的感知器递阶组成的输入值向前传播的网络,也被称为前馈网络正向传播网络

多层感知器通常采用 三层结构,由输入层、中间层及输出层组成 。
在这里插入图片描述
层感知器是通过误差修正学习确定输入层与输入层之间 的连接权重的 。 同样地,多层感知器也可以通过误差修正学习确定两层之间的连接权重。 误差修正学习是根据输入数据的期望输出和实际输入之间的误差来调整连接权重,但是不能跨层调整,所以无法进行多层训 练。

多层网络中应该如何训练连接权重呢?人们提出了误差反向传播算法 。

误差反向传播算法

误差反向传播算法就是通过比较实际输出和期望输出得到误差信号 ,把误差信号从输出层逐层向前传播得到各层的误差信号,再通过调整各层的连接权重以减小误差。

通过误差反向传播算法调整多层感知器的连接权重时,一个瓶颈问题就是激活函数

待更新~

机器学习与深度学习

机器学习和深度学习

(1)机器学习的目的

(2)深度学习的任务/优势
浅层学习——深度学习
(3)深度学习的改进/方向

  • 参数少
  • 模型简单
  • 效果好

总结

神经元的结构:
神经元的学习:

参考:
《神经网络与深度学习》-邱锡鹏
《图解深度学习》

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值