“多巴胺思维”—通往AI秘密的钥匙「AI核心算法」-CSDN博客

本文链接：https://blog.csdn.net/u9Oo9xkM169LeLDR84/article/details/109127020

关注：决策智能与机器学习，深耕AI脱水干货

作者：scott.cgi，来源：知乎

专栏地址：https://www.zhihu.com/column/scottcgi

如需转载，请联系作者

编者按：脑科学是启发AI发展的重要源头，多巴胺奖励机制也是行为主义的重要模式，其代表方法就是强化学习方法，作者对多巴胺的认识全面且深刻，本文深入浅出的介绍了多巴胺是如何对大脑控制中发挥了重要作用，跟着作者一起来看看吧。

多巴胺（Dopamine）——它是基因奴役我们的魔药，也是我们自控的旋钮。

本文，将会深入浅出地全面介绍，有关多巴胺如何“操控”我们的演化现实，而透过“多巴胺视角”或许我们会发现，其实我们每个人的人生都是——“多巴胺人生”。

那么，相信本文所提供的“多巴胺思维”与“多巴胺旋钮”两个认知工具，将会让我们对人生及生活，拥有更多的自由感和更大的自控力。

接下来，就让我们开始这次洞见之旅吧。

主题目录：

多巴胺的功能
多巴胺的通路
多巴胺的实验
多巴胺与快乐
多巴胺与学习
多巴胺与演化
多巴胺思维
多巴胺旋钮
结语
后记

多巴胺的功能

多巴胺——主要负责：行为动机、强化学习、运动控制，核心词：奖励预测。

其一，行为动机，就是指我们执行一个行为背后的驱动力。

通常，我们会认为一个行为的发生，取决于我们自由意志的喜好，即：越是喜欢，就越容易去执行一个行为，越是不喜欢，就越困难去执行一个行为。

但在大脑的神经层面，并没有什么自由意志的“实体”，而是多巴胺的浓度，设定了行为发生的难易度。也就是说，多巴胺越多，就越容易触发一个行为（动机强），多巴胺越少，就越难以触发一个行为（动机弱）。

换言之，多巴胺决定了你想要的程度，理论上被称为——激励显著性（Incentive Salience）。

其二，强化学习，是指基于环境信息的反馈，不断调整行为，从而获得最大化的收益。

那么，如果行为带来正反馈（即获得奖励，如快乐），就会触发正强化学习——这是趋利，如果行为带来负反馈（即获得惩罚，如痛苦），就会触发负强化学习——这是避害。

可见，强化学习——就是通过奖励与惩罚，来动态调整行为，以实现趋利避害的机制。

事实上，强化学习（Reinforcement Learning）原本是（人工智能领域）机器学习中的概念，即：通过反馈信号，来评价动作的好坏，以引导“机器”自主地试错学习，并更新模型参数的一种策略（有多种算法实现）。

然后，神经科学家（Wolfram Schultz，Peter Dayan，Read Montague）将其借用来解释，多巴胺在大脑中的一种功能运作。

也就是说，多巴胺是一种神经反馈信号，用来衡量行为结果的好坏（化学奖励是好，化学惩罚是坏），以引导我们的试错学习，并更新可以快速做出趋利避害判断的颅内模型。

现代脑科学研究表明：多巴胺强化学习 = 即时差分学习算法 + 分布式学习。

而相关理论最早在1997年由Wolfram Schultz提出，被称为——奖励预测误差假说（Reward Prediction Error hypothesis，RPE）。

即时差分学习算法（Temporal difference Learning，TD） ——是指在每个时间点上，都在进行预测误差的计算（即：当前预测奖励 - 之前预测奖励 + 当前实际奖励），并将结果代入下个时间点的计算，从而连续调整对奖励的预测（这个预测就是即时差分信号）。其作用是，精准地评估未来可获得的奖励，以动态地调控多巴胺的释放量。

分布式学习——是指不同通道的多巴胺细胞，对预测误差的计算是不同的，或说是独立的。换言之，对同一个奖励信号，不同通道的多巴胺细胞，将会给出不同的预测误差，结果有些得到了正误差（奖励超出预期），有些则得到了负误差（奖励低于预期）。

参看：多巴胺强化学习中的价值分布编码

其三，运动控制，就是运动的自控与调节，比如保持一个姿势，或是执行一个动作，更复杂的就是完成有难度和技巧的运动。

那么，将以上看似无关的三点，串联起来的就是——奖励预测。其逻辑就在于：动机需要预测可能、学习需要预测误差、运动需要预测轨迹。

也就是说，预测到奖励就会有——动机，实际奖励与预测有误差就会有——学习，而任何运动过程都会耗费更多的能量——所以需要动机，同时运动轨迹的精确控制——需要学习。

例如，一种新品冰淇淋，我们没吃过，但脑回路中记录了曾经吃其它冰淇淋时的体验奖励，于是我们就会对新品产生预期奖励，从而就有想吃的动机，并且曾经体验得到的奖励越多，想吃的动机就越强烈，接着通过一系列的运动控制，我们吃到了新品冰淇淋，此时体验奖励与预期奖励就会有误差——正误差我们会学习到新品更好吃（以后吃新品），负误差我们会学习到新品不好吃（以后不吃新品），零误差我们会什么都没学习到（以后不确定吃新品）。

由此可见，多巴胺是先利用先验信息产生行为动机，接着利用运动控制试图消除预测误差，最后则利用强化学习将无法消除的误差更新入先验信息，以备后用。

当然，最最初的先验信息，就是基因算法所编写的本能欲望，就如食物与繁衍，天然就会带来预期奖励。

同理，那些不愉快与痛苦的经历，就会带来预期惩罚，这会降低某些区域的多巴胺的浓度，从而减少动机，抑制行为的发生——但也会增加另些区域的多巴胺浓度，以激活弊害行为的发生。

例如，被热水壶烫过，再次遇到热水壶，就会降低“动机多巴胺”，增加“运动多巴胺”，前者负责减少对触碰热水壶的动机，后者负责增加避免触碰热水壶的运动——从此也可以看出，为什么多巴胺系统是分布式学习，即对同一个信息，不同的多巴胺细胞会学习到不同的结果。

所以，多巴胺所预期的奖励——其实是颅内的化学奖励（即正面感受），所预期的惩罚——其实是颅内的化学惩罚（即负面感受）。

换言之，对于化学奖励我们有追逐的动机，对于化学惩罚，我们有逃避的动机。再换言之，对于好消息（为了追逐）我们喜欢更多——容易忽略已有的利，对于坏消息（为了逃避）我们重视更多——容易记住已有的害。

而实际奖励低于预期奖励，即奖励负误差，也可以看成是一种惩罚——它带来失望情绪，以及降低下次相同行为的动机（或说驱动力）。

那么按此视角，我们会发现，有关多巴胺参与的功能，就都能够解释的通了。

例如，注意力需要行为动机与运动控制（眼球），昼夜节律需要运动控制（身体），情绪感受来自预期误差，时间感知来自运动预测，以及等等。

甚至说，我们每一步的行动都需要奖励，而在执行每一个行为的之前与之时，我们都会一遍遍地预测，以做出选择与判断，并从中学习到更好的决策模型——这背后都需要多巴胺的参与支持。

因此，多巴胺在正常的大脑中，一直都是存在的只是浓度和区域不同，而用奖励预测比奖赏预测更好，因为多巴胺并没有“赏”你什么，而是在“励”你去完成什么。

最后，对于预测与误差，神经科学有这样一种观点，即：预测是大脑中一切活动的“通货”，不同的脑区之间交易的，就是不同种类的“预测”。