注:本文为 “赫布定律” 相关文章合辑。
未整理。
赫布定律 Hebb‘s law
馥墨轩 2021 年 03 月 13 日 00:03
1 赫布集合的基本定义
唐纳德・赫布(Donald Hebb)在 1949 年出版了《行为的组织》(The Organization of Behavior)。他在书中提出,脑内反映的某些外界客观物体的表征,是由被该外界刺激激活的所有皮层细胞组成的,赫布把这群同时激活的皮层细胞称为一个细胞集合(cell asssembly)。突触前神经元向突触后神经元进行持续重复的刺激后,会使传递的效能被强化或改变。
这句话的意思就是当有邻近的刺激时,无论是空间邻近,还是时间邻近,邻近元素都会形成一个被强化的整体。
下面通过简单、抽象的图式来一步步说明赫布集合。首先,细胞集合是由神经元和神经元之间的连接构成的,如下图所示。
基本的赫布集合
图中的一个圆圈既可以代表一个神经元,也可以代表另一个细胞集合。
一个圆圈也可以是一个更小级别的赫布集合
所以第一个图也可以用更复杂的形式表达,如下图所示。
一个大的赫布集合可以由多个子赫布集合构成
2 赫布定律的产生作用的过程
前面介绍了赫布集合的基本定义,它产生作用分为两步,第一步是同时刺激,形成赫布集合;第二步是再现,即再现原始的刺激。下面详细说明。
(1)同时刺激
当出现一个刺激源的时候,与刺激源具有映射关系的神经元或细胞集合就会受到刺激,当被反复刺激之后,映射的神经元之间的连接就被加强了。
刺激会加强神经元或细胞集合之间的联系
(2)再现
同时受到刺激的神经元被加强后,只要其中的一部分受到刺激,就会通过被加强的联系(突触或髓鞘的变化)激活之前共同受到刺激的神经元。
再现原始刺激
一个并不完整的刺激可以激活完整的记忆,这就是格式塔闭合原则的神经学基础。
将未闭合图形认知为闭合的倾向
大家可以思考一下邻近元素之间构成的整体与赫布集合原始刺激之间的关系,这二者是不是有什么联系呢?
文章来源:书籍:UI 设计与认知心理学
赫布法则(Hebb’s rule)与机器学习
Neuro 科学和人工智能 2022 年 10 月 24 日 20:16 上海
人工智能的方法,不管是搜索还是决策,本质上是基于预先定义的规则的,即使是概率推理,也是根据预先给定的概率分布的,但当 Agent 面对真实环境时,实际的情况会比预先规则能够预见的情况复杂很多倍,在经过很多年的努力后专家系统的基本上以失败告终的结局更加使人们认清了这个事实,在这种情况下,如果能够让 Agent 能够不断地根据实际环境进行自发调整就变得越来越重要,这背后的基础理论涉及到记忆和学习,本节我们就来介绍机器学习。
我们首先需要明确的一点是:机器学习是有着明确的目标的,也就是学习是和具体的问题有关的。只有把具体的一类问题能够用很清晰的数学语言定义出来,机器学习才能够发挥惊人的威力,但是在这个严格定义的数学问题之外,曾经非常成功的机器学习算法也很难发挥威力。我们现在聚焦一类具体的学习问题:从一组 “输入 - 输出” 对中学习能够预测新输入相对应的输出的函数。
我们描述的 Agent 的部件包括:
① 在当前状态上,条件到动作的直接映射;
② 从感知序列推演世界的合适特征的方法;
③ 关于世界进化方式的信息和关于 Agent 能执行的可能动作的结果信息;
④ 表明世界状态愿望的效用信息;
⑤ 表明动作愿望的动作 - 价值信息;
⑥ 描述能最大化成就的 Agent 效用的状态类的目标。
这些部件中的每一个都能学习。关于 Agent 部件的表示法有:逻辑 Agent 部件的命题和一阶逻辑语句;决策 - 理论 Agent 推理部件的贝叶斯网络,等等,对于所有这些表示法,都已经发明了有效学习算法。大多数当前机器学习研究涉及到这样的输入和输出,其中输入使用一种要素化表示法 —— 属性值向量,输出或是连续数字值或是离散值。除了这种被称为归纳学习的之外,还有就是所谓的分析或演绎学习,是从已知通用规则走向被其逻辑蕴涵的新规则,不过随着专家系统的式微,这种学习已经沉寂很久了。
有三种类型的反馈,决定了如下三种主要的学习类型:无监督学习、强化学习和有监督学习,当然居间的还有所谓的半监督学习。
接下来我们重点关注在计算神经学构建的生物神经元网络和人工智能的机器学习搭建的人工神经元网络模型中涉及的学习。-=
神经元学习中的赫布法则及相关问题
神经元中的学习基础是前面讲过的赫布法则,赫布认为通过修改突触连接强度可以模拟训练时神经元之间的关系。然而,直接应用赫布法则会存在问题:突触连接的增强是一个正反馈,修改突触连接的活动本身会带来更强的活动以及更多的突触增强,如果没有对突触可塑性规则的一些调整或增加限制条件,赫布修改将会产生突触强度的不可控增长,因此一般需要对权重设置上限。
然而,突触后神经元本来对于输入具有选择性,这是通过突触间竞争来实现的,但是如果设置了权重上限,而许多突触的权重达到上限,这样就失去了对输入的选择性,这就需要我们再引入一些其它规则来恢复突触间的竞争。
基于累积放电模型的讨论
我们用累积放电模型的线性方程为基础进行讨论:
τ r d v d t = − v + w ⋅ u = − v + ∑ b = 1 N u w b u b \Large\tau_{r} \frac{d v}{d t}=-v + w\cdot u=-v + \sum_{b = 1}^{N_{u}} w_{b} u_{b} τrdtdv=−v+w⋅u=−v+∑b=1Nuwbub
突触可塑性的过程远比上式描述的要慢得多,如果我们再假设刺激也是足够慢使得网络在训练期间保持稳定状态的活动,则上式变成:
v = w ⋅ u \Large v = w\cdot u v=w⋅u
最简单的赫布法则是如下的形式:
τ w d w d t = v u \Large\tau_{w} \frac{d w}{d t} = vu τwdtdw=vu
其中, τ w \tau_{w} τw 是控制权重变化率的时间常数。
我们用训练期间的平均输入,上式变成:
τ w d w d t = ⟨ v u ⟩ \Large\tau_{w} \frac{d w}{d t} = \langle vu\rangle τwdtdw=⟨vu⟩
角括号 ⟨ ⟩ \langle\rangle ⟨⟩ 表示多次试验的平均值。在无监督学习中,将 v = w ⋅ u v = w\cdot u v=w⋅u 带入:
τ w d w d t = Q