人工智能如何实现两难抉择？

智源社区

于 2020-11-27 13:40:39 发布

阅读量574

点赞数

文章标签：神经网络人工智能机器学习深度学习大数据

原文链接：https://hub.baai.ac.cn/view/4243

版权

转载自：神经现实

人生无时无刻不在做选择，尤其是当面临两难抉择时，该怎么快速做出决定呢？脑又是如何帮助完成两难抉择的呢？计算机能否在两难困境下做出清晰的判断呢？

中国科学院自动化研究所类脑智能研究中心曾毅团队充分借鉴果蝇脑自主决策的神经机制，提出了类果蝇决策的脉冲神经网络模型，模型能够实现趋利避害的行为，并在两难抉择下快速做出清晰的选择。在无人机强化学习、反转学习和多难决策的任务上均得到了有效地验证。

相关研究工作高度融合神经科学发现与计算建模，为发展新一代类脑自主决策的人工智能模型提供创新源泉。

这项工作是课题组与神经科学研究所郭爱克院士团队合作完成的研究成果，相关工作发表在Nature旗下期刊Scientific Reports上。

果蝇进行抉择存在线性抉择和非线性抉择两大通路。在面临抉择任务时，果蝇会自适应地选择合适的通路进行不同复杂度的抉择。

中国科学院神经科学研究所郭爱克院士长年关注并探索果蝇抉择的神经机制。在以往研究(Tang, Guo, Science, 2001)中，郭爱克院士研究团队在视觉飞行模拟器上研究果蝇在面临两难困境时的抉择行为及神经机制。

首先让果蝇学会喜欢绿色正T的图案，而蓝色倒T的图案伴随热刺激惩罚。在抉择阶段，转换了惩罚与视觉线索的搭配，让果蝇在绿色倒T和蓝色正T之间进行选择，以此测试果蝇在冲突视觉线索下的两难抉择行为。

实验发现，在不同的颜色强度下，通过统计果蝇在飞行过程中停靠在每个图案面前的时间分布，来了解果蝇连续的抉择行为，最终会得到一条呈“S”型的抉择曲线。

通过单细胞测序发现支持两难抉择下非线性曲线的神经机制是由多巴胺能神经元- GABA能神经元-蘑菇体（Dopaminergic neuron - GABAergic neuron -Mushroom Body, DA-GABA-MB）环路负责的“增益-门控”抉择机制，这是一条基于价值的非线性抉择通路。而蘑菇体受损的果蝇只能执行简单的感知抉择，得到线性的抉择曲线。

本次文章的第一作者赵菲菲助理研究员介绍：

基于果蝇简单感知抉择（线性通路）和价值抉择（非线性通路）的神经机制，我们使用脉冲神经网络来构建多脑区协同的抉择模型，训练阶段采用多巴胺长时程调控和局部突触可塑性机制融合的网络学习过程，测试阶段根据任务需求来决定通路的选择并输出偏好的行为。

线性通路建模了中央复合体的记忆功能来做出快速的抉择。非线性通路模拟了DA-GABA-MB环路实现增益-门控机制。具体来说，非线性通路的网络结构如下：视觉信息由复眼传递到蘑菇体中的凯尼恩细胞（Kenyon Cells，KC），KC与伽马氨基丁酸能神经元（Anterior Paired Lateral Neurons, APL）之间存在交互的链接，即KC给予APL兴奋性的输入，APL反过来抑制KC。蘑菇体输出神经元（Mushroom Body Output Neuron，MBON）也会接受来自KC的兴奋性输入，进而输出行为的选择。当面临两难抉择时，冲突视觉线索导致蘑菇体中的多巴胺水平阶段性的上升，并维持70-100ms。多巴胺与APL之间存在双向抑制的作用，多巴胺还会提供给MBON兴奋性的输入。

所提模型在果蝇视觉强化学习和两难抉择任务上均得到与真实神经科学实验相近的结论，验证了受果蝇抉择环路启发的模型所具备的类果蝇抉择的认知能力。特别是在两难抉择任务中，所提模型能够很好地重现非线性通路的“S”形曲线，即在两个冲突线索存在微小的差异时，仍能显著地放大差异，做出清晰选择。而仅依靠线性通路的实验结果得到一条近似线性的曲线，与神经科学实验的发现一致。

曾毅研究员提到，课题组进一步讨论了DA-GABA-MB机制在非线性抉择中的作用，当去掉多巴胺神经元后，只保留APL与KC之间的交互连接，经过KC的所有视觉线索均被抑制，无法得到非线性的结果，而当去掉APL后，非线性通路与线性通路的实验结果一致。因此证明DA与APL协同实现了非线性通路的增益-门控机制，每个脑区都起着不可替代的作用。在果蝇蘑菇体中检测到多巴胺的活跃时间为70-100ms，这段时间多巴胺将APL抑制掉，因此对KC形成了去抑制的作用，帮助促进了显著线索的通过，在经过一段时间后，多巴胺神经元不再兴奋，只保留APL对KC的抑制，进而将较不显著的线索抑制掉。这里多巴胺的持续时间对实验结果的影响很大，课题组对不同多巴胺持续时间进行实验发现，持续时间过长或过短的效果均不好，而在70和100ms时的结果很相近并呈现“S”型曲线。

赵菲菲助理研究员介绍，将类果蝇抉择的脉冲神经网络模型应用到无人机抉择任务上，使用小拳头打击无人机来模拟惩罚信号，无人机可以学会飞向安全的视觉图形，并对视觉图形所包含的线索具有趋利避害的行为。此外，无人机能够灵活地适应任务的反转，仅经过4次错误选择就可以学会反转后的规则。

无人机真实场景复杂抉择任务中经常会遇到多难抉择的情况，例如在无人机自主飞过窗任务中，无人机需要在线地根据环境反馈在多个候选行为中进行选择，直到移动至窗户中心完成任务。课题组利用这项工作中提出的模型，引入非线性通路的DA-GABA-MB机制，可以帮助无人机清晰地选择合适的策略，抑制掉获得奖励较少的行为，以使得无人机能够更加快速地穿越窗户。

曾毅研究员说：果蝇脑在不断演化过程中得到线性和非线性两条抉择神经环路，看似冗余实际上充满了精妙的设计，是大脑经济学的充分体现。不同通路具有不同的工作机理，在不同的任务需求下被自适应地选择和启用，相互之间协同完成果蝇的简单感知抉择和两难抉择。双抉择系统协同在果蝇脑甚至灵长类动物脑中均普遍存在，这在提升对复杂环境的适应性和鲁棒性方面发挥着重要的作用，也是脑几亿年演化过程中通过不断演化和自然选择保留下来的高效节能的神经结构和工作机理。演化和自然选择是智能产生的根源，脑演化得到适应于环境的结构和功能是类脑智能计算模型非常值得借鉴的。类果蝇的抉择脉冲神经网络是研发高等人工智能系统的基石。

文章链接：

https://www.nature.com/articles/s41598-020-75628-y.pdf