On the origin of deep learning深度学习的起源:从亚里士多德到现代人工神经网络 文章梳理+个人理解

本文介绍了从亚里士多德的联想心理学到现代人工神经网络的发展,包括Hebbian学习法则、OjasRule、MCP神经模型和Perceptron,阐述了这些理论在机器学习中的应用,以及感知器的线性表示能力限制。后续章节将探讨深度学习模型的表征能力提升。
摘要由CSDN通过智能技术生成

这篇博文是这篇论文的第二章,括号中内容是博主的个人见解,也包含一些不理解的地方,欢迎交流及指正错误。

目录

从亚里士多德到现代人工神经网络

联想心理学(Associationism)

Bain和Neural Grouping

Hebbinan学习法则

Oja’s Rule and Principal Component Analyzer

MCP Neural Model

Perceptron感知机

Perceptron‘s Linear Representation Power


从亚里士多德到现代人工神经网络

关于人工神经网络和深度学习的研究的起因是人类想要用电脑系统模拟人脑。要实现这一想法就首先需要人类对自己的认知系统有一定的了解。这就要从亚里士多德的联想心理学开始讲起了。

联想心理学(Associationism)

联想心理学:认为心智是一组概念元素,这些概念元素被组织为这些元素之间的关联(这里看不懂没关系,下面的例子更容易理解)。受柏拉图的启发,亚里士多德考察了回忆和回忆的过程,并提出了四个Association法则:

  1. Contiguity邻近性:在空间或时间具有邻近性的事件/事物在头脑中倾向于关联。由亚马逊平原可以联想到亚马逊河,再联想到亚马逊平原是世界上最大的热带雨林。
  2. Frequency频率:两个事件的发生次数和这两个事件之间的关联强度成正比。
  3. Similarity相似性:一件事的想法常常会触发相似时间的想法。研究唐朝和汉朝,会发现历史有着惊人的相似。两朝在建立之前都分别经历了一个短命王朝
  4. Contrast对比:一件事的想法常常会触发相反时间的想法。比如如由高山想到流水,由黑暗想到光明,忆苦而思甜。

这对我们的记忆发挥着重要的作用,“一件在脑子里的事实,与其他多种事物发生联想,就容易很好记住。所联想的其他事物,犹如一个个钓钩一般,能把记忆着的事物钩钓出来。“

这个定律对应到机器学习方法中也有很多的应用,如:距离(在定义的距离下)较近的样本被聚为一类;经常与响应变量一起出现的解释变量会得到模型的更多关注;相似/不相似数据通常用隐空间中更多的相似/不相似嵌入来表示。(看到这里真的有被震惊到,2000年前的理论竟仍然可以作为机器学习方法的基本假设

同时有很多人提出了类似的观点,或者对这个观点进行了强化。之后David Hume对这四个理论进行简化变成了现在常用的三个理论:相似性,接触,因果。也有人强调频率是学习的关键(可能这也是为什么温故而知新吧

David Hartley提出记忆可以被认为是 原始的感觉在大脑相同区域进行小尺度的振动,而这些振动连接起来代表了复杂的思想。这一思想启发了Hebbian学习规则

Bain和Neural Grouping

Alexander Bain提出了一种与当今的Neural Network高度相似的结构,如下图所示:

一个细胞在一个grouping中汇总来自其他与该细胞连接的刺激,如a,c的联合刺激激发X,b和c的刺激触发Y,a和c的刺激触发Z。在他的原文中,a,b,c代表模拟,X、Y、Z是细胞的结果。

顺着联想主义的方向,Bain指出neural grouping必须在一段时间内的时间邻近性中形成。通过经验来加强或削弱连接。而接下来要介绍的Hebbian的公设()和Bain的描述高度相似。

Hebbinan学习法则

Hebbian被称为神经网络之父,

Hebbinan学习法则:当A细胞的轴突接近足以兴奋B细胞并反复或持续地参与放电时,一个或两个细胞就会发生某种生长过程或代谢变化,从而使作为B细胞放电之一的As效率增加。

这段内容可以表示为机器学习中的这个公式:

△wi为神经元i的突触权值( wi)变化,输入信号为xi,y为突触后响应,n为学习率。也就是说,该学习规则"指出,随着两个单元共现频率的增加,应该加强两个单元之间的联系。(也就是当x和y同时被激活,即 他们的值同时比较大时,他们之间的连接权重也会增大,这里的学习率是一个固定的常数值但是这个描述有一定的缺陷随着共现次数的增加,连接的权重不断增加,一个主导信号的权重将呈指数增长。这被称为希伯来语学习规则(Principe et al,1999)的不稳定性。

Oja’s Rule and Principal Component Analyzer

Erkki Oja对Hebbian的学习规则进行了扩展,从而避免了该规则的不稳定性。并证明遵循这个更新规则的神经元可以逼近PCA(主成分分析器)

Oja进行扩展的方式是:引入了归一化项!

这里如何用公式解释和PCA之间的联系没搞明白。。。。

MCP Neural Model

虽然Donald Hebbian被称为神经网络之父,但是第一个神经元模型可以追溯到更早之前,神经生理学家和数学家推测神经元的内部工作,并将他们的模型成为MCP神经模型。公式如下所示

y=\left\{\begin{matrix}1,\sum _i{w_{i}}{x_{i}}\geqslant \Theta AND {z_{j}=0,}\forall j & \\ 0, otherwise & \end{matrix}\right.

x在这里代表输入的信号,w代表对应的权重。z代表抑制输入,θ代表阈值,任何抑制性输入的活动在任何时候都完全阻止神经元的兴奋(但是似乎在人类的神经元上不是这样的。只有当z=0的时候,神经元才会兴奋。

尽管MCP神经模型与现代感知器有许多相似之处,但它们在许多方面仍有明显的不同:

  1. MCP神经模型最初是作为电路建立的。后来我们会看到,神经网络的研究借鉴了电路领域的许多思想。
  2. MCP神经网络模型的权重是固定的,而现代感知器中的权重是可调的。所有的权重都必须通过手工计算来分配。
  3. 即使在今天,抑制性输入的想法也是非常不寻常的。这或许是现代深度学习研究中值得进一步研究的思路。(不理解这为什么是一个研究思路,在人类的神经元或者生物神经系统中,抑制性输入的活动通常不会完全阻止神经元的兴奋,而是会对神经元的活跃性产生一定程度的调节

Perceptron感知机

Rosenblatt在视觉系统的背景下引入了感知机,感知机的组织规则如下:

图a从左到右,4个单元分别为感觉单元、投射单元、联想单元和反应单元。投影单元接收来自感觉单元的信息,并传递给联想单元。该单元在其他类似模型的描述中经常被省略。由于省略了投影单元,该结构类似于目前神经网络中感知器的结构( (如图2 ( b )所示) ):感知单元收集数据,关联单元将这些数据以不同的权重线性相加,并对阈值和进行非线性变换,然后将结果传递给响应单元。

而早期神经元模型和现代感知机的一个主要区别是:现代感知机中加入了非线性激活函数,如图b。

之后Widrow等人( 1960 )引入了一个名为自适应线性元件(ADALINE)的跟踪模型。

Perceptron‘s Linear Representation Power

感知器本质上是输入信号的线性函数.因此,当需要更复杂的决策边界时,它仅限于像NOT,AND或OR这样的逻辑运算来表示线性决策边界,而不是XOR。Minski和Papert ( 1969 )强调了这种局限性,他们通过强调感知器不能解决XOR或NXOR等函数来攻击知觉的局限性。如何理解这段内容呢,可以看下面作者给出的例子:

这里引入一个只有两个输入x1和x2的线性感知机,因此,决策边界w1x1 + w2x2在二维空间中形成一条直线(也就是图a中的斜线)阈值大小的选择使直线水平移动,函数的符号选择直线的一侧作为函数所代表的半空间。

在图b-d中用a,b表示输入,a AND b这个节点表示他们都被触发的情况,以及原点表示他们都没有被触发的情况。

图3 ( b )和图3 ( c )清楚地表明,线性感知器可以用来描述这两个输入的AND和OR操作。然而,在图3 ( d )中,当我们对异或操作感兴趣时,该操作不再可以用单一的线性判决边界来描述这段内容应该怎么理解?c图哪里体现or了?)

下一章将会介绍:把感知器放在一起构成神经网络时,表征能力被极大地放大了。然而,当我们不断地将一个神经网络堆叠在另一个神经网络上来构建深度学习模型时,表征能力并不一定会增加。

  • 53
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值