初探神经网络(一)开始于M-P模型

全文内容约4500字,结合理解能力,单遍阅读时间约9分钟。

神经网络本质上不是什么新东西。神经网络被归为深度学习的内容之一,其使用和探索从来都不是个新鲜的事儿,包括这么多年的发展和尝试应用,都在不断的对当下算法的局限性进行改进和替代。我本科的专业是应用统计学,从大二开始接触专业课程,第一次听到神经网络,就好像是土生土长的中国人突然从一个国内的香蕉人嘴里听到一句蹩脚英文一样。你心里极度鄙视这种听着唬人的说辞,又得尽力去理解这蹩脚的单词,以防着不要被人用洋文问候了你的家人。你会尝试学习它,学习过程中又会了解到这个直到现在还是被人敬而远之的领域,深度学习,deep learning(好嘛又一个洋文词组。所以这里真的要吐槽一下,总有人为这种英文命名正名,说是用英文更能表达概念的原本含义。中文,日文等都是字表意,英文等一众印欧语系-日耳曼语族下语言都是词表意,你去比对一下新华字典和牛津高阶词典的厚度和大小。哦对了,牛津高阶也只记录了18W,还不包括文献出现的不常用单词和未记录在册的俚语,区区词组用中文还解释不了了?不要为了拽词儿而拽词儿,我听了英文,我得自己翻译,然后在我肚子里还是得用中文去理解含义。不然你以为鲁棒性这种蹩脚词汇是怎么来的。吐槽完毕)。

深度学习虽然在学术界的大牛看来,属于旧概念的炒作。然而由于神经网络本身的非线性和连接的复杂性,其中的概念的确比一般的浅层算法复杂的多,从这个角度来说,称其为“深”,也算有些道理。

神经网络的发展,要从生物科学上对神经元的认识开始,一言以蔽之,神经元受到刺激后会释放物质,发出一个“受到刺激”的信号,不受到刺激就不会发出信号。像电器的开关一样。而将这个过程简化后,就变为了a->b。可这么简化,跨度实在是太大,于是为了将这个过程描述的更好理解一点,M-P神经元模型在1943年由Warren McCulloch和Walter Pitts提出(姓名都是爹妈给的,这个就不汉化了)。两人致力于研究“大脑是如何处理信息的”。McCulloch在摆弄青蛙,而另一位神经心理学家Donald Hebb从黑猩猩身上研究情感和学习能力,Hebb并没有成功把黑猩猩“教导成材”,获得个学位什么的,但自己却从中领悟出了一套生物学习的规则。1949年,Hebb出版了《行为组织学》(“Organization of Behavior”)一书。在该书中,Hebb总结提出了被后人称为“赫布法则”(Hebb’s Law)的学习机制。他认为如果两个神经元细胞总是同时被激活的话,它们之间就会出现有某种关联,同时激活的概率越高,这种关联程度也会越高

1.M-P神经元模型

M-P来源于两位缔造者的姓氏首字母,无先后主次顺序。先介绍下这二位。

Warren Sturgis McCulloch,1898~1969,美国神经生理学和控制论科学家。哥伦比亚大学博士,先后执教于麻省理工、耶鲁、芝加哥大学。

Walter Harry Pitts, Jr.,1923~1969,美国计算神经学科学家。这个人的经历,实在是非典型。家里贫穷,大约是读不起大学,15岁的时候,到芝加哥大学旁听Bertrand Russell的讲座。Russell很看重这个年轻人,但由于他只是访问学者,于是在回国之前,将Pitts介绍给Rudolf Carnap,后者为Pitts安排了一份在学校打杂的工作。这一打杂就是五六年时间,最后凭借论文,获得芝加哥大学的准学士学位(因为他始终都不是正式学籍的学生),这也是他一生唯一的学位。但是如果看看Pitts的合作者的阵容,就知道Pitts水平之高了。他们是:Warren McCulloch、Jerome Lettvin(美国著名认知心理学家,麻省理工学院教授,最著名的工作是发表于1959年的论文《What the frog’s eye tells the frog’s brain》,这篇论文是SCI中被引用次数最多的论文之一)Norbert Wiener(数学家,《控制论》就是这人写的。 )

M-P神经元模型结构图

首先复习高中生物知识。

1.神经元的主要构造分为3个部分: N个树突+细胞体 +突触。

2.神经元之间的连接是就是树突连接(另一个神经元)的突触。这种首尾相连的结构,N个树突可以连接N个神经元。

3.神经递质在突触传递中是担当“信使”的特定化学物质,简称递质。

4.信号的传输方式是由N个神经元通过树突传递神经递质,递质上附加了生物电,当生物电累加到一定阙值时就会激发突触发送信号出去。

在阅读下面的描述时,请保持你基于高中所学生物知识理解以下模型。对于某一个神经元 j j j ,可能同时接受了许多个输入信号,用 x i ( i = 1 , 2 , 3 , . . . , n − 1 , n ) x_i(i = 1,2,3,...,n-1,n) xii=1,2,3,...,n1,n表示,对于神经元的影响存在兴奋和抑制, x i x_i xi 其正负模拟了生物神经元中突出的兴奋和抑制。由于生物神经元具有不同的突触性质和突触强度,其中各信号对 j j j 的影响是不同的,因此需要引入权重(weight)的概念,“权”在加权平均中,表达的含义是不等精度观测值在计算未知量的最可靠值时所占的“比重”或“份额”,这里的权用于衡量影响程度,用 w i j w_{ij} wij 表示,输入信号及其对应权重会对 j j j 有一个共同影响,表达为 w 1 j x 1 + w 2 j x 2 + w 3 j x 3 + . . . + w n j x n w_{1j}x_1 + w_{2j}x_2 + w_{3j}x_3 + ... + w_{nj}x_n w1jx1+w2jx2+w3jx3+...+wnjxn,即 ∑ i = 1 n w i j x i \sum_{i=1}^{n} w_{ij}x_i i=1nwijxi。这股“合力”能否使得神经元 j j j 受到足够的能量从而被刺激呢?需要一个阈值 θ j \theta_j θj(Threshold)进行衡量,当 ∑ ⩽ θ j \sum \leqslant \theta_j θj,说明不足以突破阈值,就好比一个弱女子一记粉拳打在了泰森的肚子上,不痛不痒,该配合你演出的泰森演视而不见,自然也不会痛到叫出声。但要是超过了能忍受的范围,即超过了阈值,那么 ∑ > θ j \sum >\theta_j >θj,此时受到刺激,对外发出信号,该神经元 j j j 在外界视角看来就是激活的状态。

现在的衡量标准依靠 ∑ \sum 以及 θ j \theta_j θj之间的大小关系来衡量,我们转化为:

∑ i = 1 n w i j x i − θ j \sum_{i=1}^{n} w_{ij}x_i - \theta_j i=1nwijxiθj

其中神经元的激活受两两对应的权重和输入信号共同影响,类比在高等代数中线性方程组的写法, X X X 表示输入向量,用 W W W 表示权重向量,即有如下表示:

X = [ x 1 , x 2 , . . . , x n ] X = [x_1,x_2,...,x_n] X=[x1,x2,...,xn]
W = [ w 1 j , w 2 j , . . . , w n j ] T W = [w_{1j},w_{2j},...,w_{nj}]^T W=[w1j,w2j,...,wnj]T

而此时还包括一个阈值 θ j \theta_j θj ,转化思想我们可以将阈值看成是神经元 j j j 的一个输入 x 0 x_0 x0 的权重 w 0 j w_{0j} w0j,那么就有以下表示。此时阈值作为一个确定常数 x 0 x_0 x0 和确定输入信号权重的 w 0 j w_{0j} w0j,也被纳入到了输入向量和权重向量中:

X = [ x 0 , x 1 , x 2 , . . . , x n ] X = [x_0,x_1,x_2,...,x_n] X=[x0,x1,x2,...,xn]
W = [ w 0 j , w 1 j , w 2 j , . . . , w n j ] T W = [w_{0j},w_{1j},w_{2j},...,w_{nj}]^T W=[w0j,w1j,w2j,...,wnj]T

对应的,神经元 j j j 收到的刺激之和(包含了所有的兴奋和抑制),可以表现为向量相乘的形式:

n e t j = W X net_j = WX netj=WX

其中的 n e t j net_j netj 就是我们在做类比时提到的所谓“合力”。根据上述的大小关系: ∑ > θ j \sum >\theta_j >θj 时受到刺激,对外发出信号,结合现在的推导结果,此时可表示为:

y j = { 受 到 刺 激 ( n e t j ⩽ 0 ) 无 反 应 ( n e t j > 0 ) y_j=\left\{ \begin{aligned} 受到刺激 &&(net_j \leqslant 0) \\ 无反应 && (net_j > 0) \end{aligned} \right. yj={(netj0)(netj>0)

其中 y j y_j yj 表示神经元 j j j 的对外输出。这个式子可以描述为神经元被激活的规则。后面的章节我会将这个规则推广到一般,这种规则既是M-P模型的所谓“激活函数”,而这种模式将会成为后续神经网络复杂模型的最小处理单元(PE,Processing Element),因为它描述的是一个神经元的变化情况。

基于上文,我们回到一开始提到的背景中的赫布法则,可以理解为:如果两个神经元同时激发,则它们之间的连接权重就会增加;如果只有某个神经元单独激发,则它们之间的连接权重就应减少。赫布法则是最古老的也是最简单的神经网络学习规则。

以上是M-P模型结合前辈探索和知识传承,结合个人理解后想要表达的具体内容。

最后还想补充一些留有印象的思考题,来自我,学弟学妹们,同事们,问题仅关注M-P模型本身:

Q1: ∑ i = 1 n w i j x i − θ j \sum_{i=1}^{n} w_{ij}x_i - \theta_j i=1nwijxiθj的大小可以理解为大于0后输出被刺激的性状,小于等于0无反应的状态吗?

A1: 数字0在这里只是将信号和权重量化后的结果。截至目前都没有推广到实际的神经网络模型,始终在围绕生物学上的神经元单位进行理解。 ∑ i = 1 n w i j x i \sum_{i=1}^{n} w_{ij}x_i i=1nwijxi 其实是生物学上膜电位的概念,数字0是我们在这里确定的一个规则,也就是人为指定的一个所谓激活函数,我们规定 ∑ i = 1 n w i j x i > θ j \sum_{i=1}^{n} w_{ij}x_i > \theta_j i=1nwijxi>θj 则对外输出受刺激的性状,那么当然也可以人为规定存在另一个神经元 m m m 略显疲软,需要更强烈的刺激才被激活。此时针对 m m m 规则就变成了 ∑ i = 1 n w i j x i > θ m + 100 \sum_{i=1}^{n} w_{ij}x_i > \theta_m + 100 i=1nwijxi>θm+100 ,当然你可以把这个常数100包含在 θ m \theta_m θm 内,但他们的本质相同,都是线性的规则,超过某个值则输出结果,这种函数被称作阶跃函数。阶跃函数不光滑,不连续,不可导

Q2: 神经元输入分兴奋性输入和抑制性输入表现在权重还是表现在输入上?

A2: 权重值 w i j w_{ij} wij 的正负体现了神经元“突触的兴奋与抑制”。

Q3: M-P模型在1943年提出,在当时对科学界究竟有什么重大意义?

A3: 这两位开拓者将生物学中的神经网络中的最基本的成分——神经元模型抽象成了简单模型。他们的职业和他们的初衷足以说明M-P模型并不是为了服务机器学习,人工智能领域。

欢迎关注我的CSDN博客和github主页,目标是成为首屈一指的数据科学家,成长之路邀你见证。

(暂时没有贴链接和名片的想法,会设计一个公众号的自动回复功能,上线后回复相应神秘代码即可得到主页链接。)

下期预告:初探神经网络(二)感知机


  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值