“多巴胺思维”—通往AI秘密的钥匙「AI核心算法」

关注:决策智能与机器学习,深耕AI脱水干货

作者:scott.cgi,来源:知乎

专栏地址:https://www.zhihu.com/column/scottcgi

如需转载,请联系作者

编者按:脑科学是启发AI发展的重要源头,多巴胺奖励机制也是行为主义的重要模式,其代表方法就是强化学习方法,作者对多巴胺的认识全面且深刻,本文深入浅出的介绍了多巴胺是如何对大脑控制中发挥了重要作用,跟着作者一起来看看吧。

多巴胺(Dopamine)——它是基因奴役我们的魔药,也是我们自控的旋钮。

本文,将会深入浅出地全面介绍,有关多巴胺如何“操控”我们的演化现实,而透过“多巴胺视角”或许我们会发现,其实我们每个人的人生都是——“多巴胺人生”。

那么,相信本文所提供的“多巴胺思维”与“多巴胺旋钮”两个认知工具,将会让我们对人生及生活,拥有更多的自由感和更大的自控力。

接下来,就让我们开始这次洞见之旅吧。

主题目录:

  • 多巴胺的功能

  • 多巴胺的通路

  • 多巴胺的实验

  • 多巴胺与快乐

  • 多巴胺与学习

  • 多巴胺与演化

  • 多巴胺思维

  • 多巴胺旋钮

  • 结语

  • 后记

多巴胺的功能

多巴胺——主要负责:行为动机、强化学习、运动控制,核心词:奖励预测。

其一,行为动机,就是指我们执行一个行为背后的驱动力。

通常,我们会认为一个行为的发生,取决于我们自由意志的喜好,即:越是喜欢,就越容易去执行一个行为,越是不喜欢,就越困难去执行一个行为。

但在大脑的神经层面,并没有什么自由意志的“实体”,而是多巴胺的浓度,设定了行为发生的难易度。也就是说,多巴胺越多,就越容易触发一个行为(动机强),多巴胺越少,就越难以触发一个行为(动机弱)。

换言之,多巴胺决定了你想要的程度,理论上被称为——激励显著性(Incentive Salience)。

其二,强化学习,是指基于环境信息的反馈,不断调整行为,从而获得最大化的收益。

那么,如果行为带来正反馈(即获得奖励,如快乐),就会触发正强化学习——这是趋利,如果行为带来负反馈(即获得惩罚,如痛苦),就会触发负强化学习——这是避害。

可见,强化学习——就是通过奖励与惩罚,来动态调整行为,以实现趋利避害的机制。

事实上,强化学习(Reinforcement Learning)原本是(人工智能领域)机器学习中的概念,即:通过反馈信号,来评价动作的好坏,以引导“机器”自主地试错学习,并更新模型参数的一种策略(有多种算法实现)。

然后,神经科学家(Wolfram Schultz,Peter Dayan,Read Montague)将其借用来解释,多巴胺在大脑中的一种功能运作。

也就是说,多巴胺是一种神经反馈信号,用来衡量行为结果的好坏(化学奖励是好,化学惩罚是坏),以引导我们的试错学习,并更新可以快速做出趋利避害判断的颅内模型。

现代脑科学研究表明:多巴胺强化学习 = 即时差分学习算法 + 分布式学习。

而相关理论最早在1997年由Wolfram Schultz提出,被称为——奖励预测误差假说(Reward Prediction Error hypothesis,RPE)。

即时差分学习算法(Temporal difference Learning,TD) ——是指在每个时间点上,都在进行预测误差的计算(即:当前预测奖励 - 之前预测奖励 + 当前实际奖励),并将结果代入下个时间点的计算,从而连续调整对奖励的预测(这个预测就是即时差分信号)。其作用是,精准地评估未来可获得的奖励,以动态地调控多巴胺的释放量。

分布式学习——是指不同通道的多巴胺细胞,对预测误差的计算是不同的,或说是独立的。换言之,对同一个奖励信号,不同通道的多巴胺细胞,将会给出不同的预测误差,结果有些得到了正误差(奖励超出预期),有些则得到了负误差(奖励低于预期)。

参看:多巴胺强化学习中的价值分布编码

其三,运动控制,就是运动的自控与调节,比如保持一个姿势,或是执行一个动作,更复杂的就是完成有难度和技巧的运动。

那么,将以上看似无关的三点,串联起来的就是——奖励预测。其逻辑就在于:动机需要预测可能、学习需要预测误差、运动需要预测轨迹。

也就是说,预测到奖励就会有——动机,实际奖励与预测有误差就会有——学习,而任何运动过程都会耗费更多的能量——所以需要动机,同时运动轨迹的精确控制——需要学习。

例如,一种新品冰淇淋,我们没吃过,但脑回路中记录了曾经吃其它冰淇淋时的体验奖励,于是我们就会对新品产生预期奖励,从而就有想吃的动机,并且曾经体验得到的奖励越多,想吃的动机就越强烈,接着通过一系列的运动控制,我们吃到了新品冰淇淋,此时体验奖励与预期奖励就会有误差——正误差我们会学习到新品更好吃(以后吃新品),负误差我们会学习到新品不好吃(以后不吃新品),零误差我们会什么都没学习到(以后不确定吃新品)。

由此可见,多巴胺是先利用先验信息产生行为动机,接着利用运动控制试图消除预测误差,最后则利用强化学习将无法消除的误差更新入先验信息,以备后用。

当然,最最初的先验信息,就是基因算法所编写的本能欲望,就如食物与繁衍,天然就会带来预期奖励。

同理,那些不愉快与痛苦的经历,就会带来预期惩罚,这会降低某些区域的多巴胺的浓度,从而减少动机,抑制行为的发生——但也会增加另些区域的多巴胺浓度,以激活弊害行为的发生。

例如,被热水壶烫过,再次遇到热水壶,就会降低“动机多巴胺”,增加“运动多巴胺”,前者负责减少对触碰热水壶的动机,后者负责增加避免触碰热水壶的运动——从此也可以看出,为什么多巴胺系统是分布式学习,即对同一个信息,不同的多巴胺细胞会学习到不同的结果。

所以,多巴胺所预期的奖励——其实是颅内的化学奖励(即正面感受),所预期的惩罚——其实是颅内的化学惩罚(即负面感受)。

换言之,对于化学奖励我们有追逐的动机,对于化学惩罚,我们有逃避的动机。再换言之,对于好消息(为了追逐)我们喜欢更多——容易忽略已有的利,对于坏消息(为了逃避)我们重视更多——容易记住已有的害。

而实际奖励低于预期奖励,即奖励负误差,也可以看成是一种惩罚——它带来失望情绪,以及降低下次相同行为的动机(或说驱动力)。

那么按此视角,我们会发现,有关多巴胺参与的功能,就都能够解释的通了。

例如,注意力需要行为动机与运动控制(眼球),昼夜节律需要运动控制(身体),情绪感受来自预期误差,时间感知来自运动预测,以及等等。

甚至说,我们每一步的行动都需要奖励,而在执行每一个行为的之前与之时,我们都会一遍遍地预测,以做出选择与判断,并从中学习到更好的决策模型——这背后都需要多巴胺的参与支持。

因此,多巴胺在正常的大脑中,一直都是存在的只是浓度和区域不同,而用奖励预测比奖赏预测更好,因为多巴胺并没有“赏”你什么,而是在“励”你去完成什么。

最后,对于预测与误差,神经科学有这样一种观点,即:预测是大脑中一切活动的“通货”,不同的脑区之间交易的,就是不同种类的“预测”。

换言之,大脑的“预测”是货币,购买的是“误差”,那么“通货膨胀”就是无视误差,“通货紧缩”就是消除一切误差。

而多巴胺,就是买到误差之后,大脑所调配出的一种“神经饮品”。

多巴胺的通路

多巴胺,是一种神经递质,也就是

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值