原作者:PATANJALIKUMAR SHASHANKKUMAR JOSHI
翻译者:杨永钰
摘要
指导教授: Frank L. Lewis本论文致力于提供将神经科学、 心理学和心理学联系起来的基础工作。 在德州大学阿灵
顿分校研究院( 乌塔里路) 取得巨大成果的, 关于满意度自治系统的控制理论的研究也作为
了本文的一部分。 写本文献综述的目的是提供给神经认知和控制研究所需的信息和参考。
关于哺乳动物神经机制的研究已有很多。 大脑, 尤其是人脑, 虽然还没有完全了解, 但
有人提出并证明了: 通过脑的各个部分, 有多种多样的的学习和决策过程的理论, 被称为智
能。 据猜测小脑负责监督学习, 大脑皮层在多巴胺帮助下实现无监督学习, 而基底神经节强
化学习。 概率、 数据和情感的表达影响决策过程。 分流抑制神经网络参与决策过程的时候
受概率和情绪的影响, 这种影响包括对杏仁核、 眶额皮质、 腹纹状体、 丘脑、 前扣带回的影
响。 认知能力也在决策中起作用,据推测, 在大脑中有多种学习和控制回路。
以模仿大脑的智力为目的的, 多重 actor-critics 算法用近似动态规划在最优控制中
的应用解决贝尔曼方程( 动态规划方程) 。 对于学习和控制, 基于多模型的体系结构也提出
了系统的最优控制。 这些结构包括利用分流抑制、 多模型的人工神经网络和强化学习。
然而, 要达到大脑一样的智能, 最优性是不必要的。 满意决策只满足一些最小的接受度;
它不一定是最优的, 所以它可以更快。 考虑满意度的多人博弈论是有益的。 并且, 由于各种
限制的最佳选择并不总是可能的。 因此, 在有限理性的情况下, 我们必须做出选择。 最后,
我们的目标是开发一个包括利用分流抑制和多模型的人工神经网络, 能够快速学习和控制各
种系统的框架, 有效地利用有限的资源和快速变化的环境。
第一章 介绍
“ 智能控制” 一词被用多种方式使用。 对我们来说, “智能” 控制应包括智能和控制
理论。 它应该建立在严肃的基础上, 试图理解和复制我们一直称之为“ 智能” 的现象, 即我
们在人脑中看到的广义的、 灵活的、 适应性的能力。 本文有五章提供有关上述领域的资料。
每一章进一步划分为相似的部分。
第 2 章讨论了一些最早的理解、 模型学习的工作和大脑中的决策过程。 它有三个部分。
第一节描述了由 Kenji Doya、W. Schultz等人, 在基底神经节和大脑过程焦点皮质方面的工作。
第二节谈论由 Paul Werbos 提出各种ADP( 近似动态规划) 建立脑模型的工作。 第三节讨论
了大脑中涉及到的各个部分的决策过程。
第 3 章从心理学角度探讨认知发展。第一节将Daniel Levine 所做的工作集中到模型的决
策过程中, 这主要涉及大脑眶额皮质、 杏仁核和涉及情感、 风险和决策概率。 第二部分讨论
了 Paul Werbos 在 ADP 的新工作。 第三节从心理学研究的角度说明了认知能力和决策, 涉及
皮亚杰的认知发展理论。
第 4 章着眼于新的神经认知发展的学习和控制机制。 第一部分讨论学习结构, 包括强化
学习, 模糊逻辑与分流抑制人工神经网络。 通过所有的启发和理解神经生理研究, actor—
—critics 结构用于模型预测和控制。 这涉及到基于多模型的强化学习, 与多模型自适应控制
和 eMOSAIC 模型的, 并行神经网络。
第 5 章是关于满意度不同于最优。 随着时间和资源约束, 最优性并不总是需要的。 此外,
这( 满意度) 可能会导致更快的决策。 第一节论述了满意控制理论。 第二节是应用对博弈结
果满意游戏。 令人满意的是喜欢的东西好的或更好的不是最好的, 一般是刚刚得到满足。
第 6 章讨论有限理性。 第一部分解释了有限理性。 它与心理学、 经济学和管理学有关。
它的影响也在对等网络研究中进行。 第二部分说明元认知是一种状态。 “ 知道知道” 。 这与
有限理性和满意有关。
这项工作的目的是提供神经科学, 心理学和控制系统之间的联系。 对人脑的计算和决策
机制进行了详细的研究, 特别是加强了从心理学角度来看的研究( 包括概念满意和理性) 。
学习和控制的体系结构是通过启发来实现。 应用所有这些研究结果, 可以使一个集成编译有
准备的基础上, 更快、 更有效地决策, 控制结构可以为各种自治系统设计。
(未完待续)