论文笔记：《Compact task representations as a normative model for higher-order brain activity》

本文链接：https://blog.csdn.net/qq_39462906/article/details/120246472

论文链接

1 研究意义和目标

高阶大脑区域，如额叶皮层，被认为是灵活解决任务的关键。然而，这些区域的内部计算方式和作用方式仍然存在争议。事实上，即使是最简单的任务，我们也无法真正解释所测量到的大脑活动是如何与任务结构相关联的。

这篇论文旨在解决计算神经科学中的一个基本问题：什么计算原理会引起高阶大脑区域的神经活动，我们可以通过什么方式来解释它们？论文将有效编码的原则与马尔可夫决策过程的框架结合来实现。

2 核心贡献

在心理学中，规范分析方法被普遍用于解释行为现象，而有效的编码技术被用于解释视觉神经科学中低水平的神经反应，通过预测来自不同行为策略的神经结构，来解释更高水平行为的模型是不太常见的(但特别有影响力)。这是这项工作的主要优势。

论文提出的模型在概念上具有影响力，并提供了一种新颖的科学工具，可以根据规范原则预测神经结构。这项工作可能会激发许多未来理论驱动的神经实验。

3 方法

论文的目标是建立一种规范分析方法来解释高阶大脑活动。出发点是有效编码假说，该假说认为神经回路应该消除所有冗余或无关信息。然后将有效表示的概念与强化学习(RL)和马尔可夫决策过程(MDPs)的形式化结合起来。

首先简单地假设 agent 可以积累大量的观察和行动历史。因此，这里的mdp中的状态不是隐藏的，但状态空间是巨大的，包括(短期)记忆。然后，使用状态空间的大小作为效率，并展示了如何消除冗余和压缩状态空间，同时保持代理的行为目标。

在整个研究中，遵循强化学习(RL)框架，并假设 agent 的控制目标是最大化未来的回报。

3.1 状态空间压缩

这里论文提出了两种可能的状态空间压缩：

基于模型的状态空间压缩
基于策略的状态空间压缩

仅从字面上似乎很难理解含义，这里我想用一个生活中的事例来说明。我们知道根据论文的假设，MDP随着时间推移，观察不断累积，状态空间会越来越大，这时候我们需要做的就是对状态空间进行压缩。这两种代理就代表了两种不同的压缩方式。

首先是基于模型的方式：想象一个场景，我们在实验室科研的时候，经常需要去饮水机处打水，那么从我们工位到饮水机打水这个过程中，是有一条固定路径的。这个时候，我们想加快打水的速度（科研时间宝贵XD），一种可行的方案就是我们熟练掌握打水的流程，按键-放杯-取水一气呵成。从此打水时间大大缩短。这就是基于模型的方式（如下图A）。也就是说Action（图中圆圈A）是不变的，我们打水的路径或者说策略不变，那么我们能优化的就只剩下流程了。

然后是基于策略的方式：同样是打水的例子，这个时候聪明的科研人想到了更加简单粗暴的方式。我也不需要去一遍遍练习打水的操作了，我直接把饮水机搬到工位旁边就好了，这样就算慢悠悠打水也无妨（悠闲泡茶）。这就是基于策略的方式（如下图A），这个时候我们的Action不再是固定不变的了，相反会根据历史状态不断进行调整，把饮水机放在最舒适的位置。

在这里插入图片描述

3.2 线性高斯模型

上述两种非参情况已经可以给我们一些关于任务表示的概念性见解。然而，为了更现实地处理实值神经活动、连续的观察空间和大脑的噪音，我们需要研究可行的参数化模型。在这里，我们讨论线性参数化，它允许我们直观地解释模型，并与神经属性和网络动态机制建立一些联系。

此外，通过引入噪声，我们可以在有限的空间容量下平衡表征的准确度和复杂度。出于效率的考虑，这将自动压缩状态空间，如下所示。

为了简单起见，我们在这里只考虑基于策略的代理，但是一个基于模型的代理具有完整的OMDP模型也可以进行类似的建模。在非参数情况下，模型参数为类别分布参数。假设有一个 $ N_z $维状态向量 z ，

在这里插入图片描述

因此，我们的系统对应于z状态的线性动态系统(LDS)。对于余数，我们将把读出噪声设置为零，因为我们只对过渡噪声如何随时间积累感兴趣，建模内存随时间的衰减。由于参数a、Ba、Bo、C和过渡噪声σt(见[33])的缩放存在简并性，使得系统可以简单地消除噪声，因此我们从上面和下面限制状态值，以便

鉴于这种有限的能力，与任务相关和与任务无关的信息都必须争夺资源。因此，为了准确地表示相关信息，将忽略与策略无关的信息，从而导致压缩表示。我们将在补充材料中更详细地讨论这种直觉，并在下面的模拟中举例说明。最后，我们通过最大化目标策略关于参数A, Ba, Bo, C的可能性来优化LDS，类似于之前的非参数策略压缩情况。

3.3 压缩神经活动

首先将非参数策略压缩应用于小鼠的延迟定向舔食任务。在这项任务中，老鼠必须判断一种声音的频率是低还是高，然后在延迟一段时间后，在面前左右两个输水口选择一个，来表示自己的判断。

我们为该任务设计了两个版本，一个具有固定延迟周期(固定延迟任务，FDT，下图A-E)，另一个具有随机延迟周期(随机延迟任务，RDT，下图F-H)。在ALM(前外侧运动皮层)中记录的神经元显示了任务之间的显著区别: 在FDT中，神经活动在延迟期间依旧发生明显的变化，而在RDT中，神经活动能够保持在一个稳定的水平。

在这里插入图片描述

这两个版本任务的关键区别在于，在RDT中，go cue也就是开始的时间是不可预测的，相反在FDT中可以。一个可预测的 go cue允许动物提前准备它的行动，我们将通过在实际的左舔或右舔之前引入一系列准备行动(例如张嘴、伸出舌头或内部准备)来模拟这一过程(图3B)。

由于我们假设agent会尽可能快地做出决策，以最大化其奖励。FDT的最优策略在go cue之前启动动作序列(上图C)，而RDT的最优策略在go cue之后启动动作序列(上图F)。这些差异分别体现在上图D和G所示的压缩状态空间表示中。

在FDT中，任务表征在延迟期间能够保持精确的时间跟踪(上图D)。每个时间点有效地成为它自己的状态。如果我们用单个神经元的激活来识别每个状态(或者更直接地说，是一个群体模式)，那么神经活动就会像延迟线一样开启和关闭(上图E)。

因此，这种任务表征允许agent在go-cue之前采取准备行动。我们注意到，记录的神经活动通常比这里提出的快速延迟线慢(它们“斜坡”上升或下降)。这种斜坡性提供了一种不那么精确的时间编码(因此“更廉价”)，因为这对这个任务来说已经足够了，因为获得精确时间的收益很少(仅仅是更快获得奖励)。这里我们只考虑保存未来回报的压缩表示，而不考虑未来回报和压缩表示之间可能的权衡。这些理想化的表示需要一个更加快速的延迟线。

相反，RDT的压缩状态表示结合了所有的延迟状态，从而丢弃了定时信息(上图G)。因此即便(压缩)状态在延迟期间不改变(上图H)，也足够达到最佳RDT策略。

4 结果：非参数线性压缩

接下来，我们研究了猴子工作记忆任务中的模型和策略压缩，见图4A。在这个任务中，会给猴子提供两个频率分别为f1和f2的振动刺激，并在3秒的延迟后呈现给猴子的指尖。为了获得奖励，猴子必须指出两种频率中哪一种更高。在任务过程中记录猴子前额叶皮层的神经活动，与之前其他工作记忆任务中观察到的相似，猴子前额叶皮层在延迟期间的仍会产生与时间相关的神经活动。

该任务的历史omdp如图4B所示。在使用基于模型的agent的方法压缩历史空间时，我们发现延迟期间的所有状态都没有被压缩，因为它们是f2观测的预测。在观察f2后，具有相同行为-奖励随因事件的历史状态被合并在压缩表示中，只产生两种状态(f1 >F2和f1 <f2)，有效对应被试的决策(图4C)。如果我们再次用神经群体模式的激活来识别每个状态，我们就会发现一个与决策相对应的成分，正如在数据[35]中观察到的那样，而且在延迟期间也有一个不反映记录活动的精确时间编码(图4D)

在这里插入图片描述

在任务方面训练有素的动物可能会被认为具有习惯行为。事实上，当我们寻求只保留策略信息，并且当我们假设动物在延迟期间没有准备任何行动时，我们发现我们可以进一步压缩状态空间(图4E,F)。所有对应于不同f1频率的延迟状态被合并，因此任何时间信息都将丢失。当观察随时间变化的状态表示时，我们发现了持续活动(图4F)，就像上面的RDT(图3G)一样。这里的持久状态动态与上面FDT的顺序状态动态形成对比(图3E)。在这两个任务中，延迟是固定的，而在定向舔食任务中，存储了一个决定，而在这里存储了一个刺激，并且(在不需要准备行动的假设下)延迟期间的时机是无关的。

虽然非参数处理产生了一些概念上的见解，但它不允许与数据进行直接比较。例如，基于模型的agent的延迟线活动关键依赖于仿真的时间步长，并假设内部表示完全无噪声演化。为了更接近真实的主体，我们最终使用参数LDS方法对躯体感觉工作记忆任务进行建模，该方法也包含噪声。试验结构如图4A所示，但{f1, f2}∈R为连续标量。考虑到线性参数化的刚性，我们做了几个简化假设:首先，我们只最大化实际决策(左或右)的准确性，完全忽略之前的行动。转移函数也变得与动作无关，也就是说，我们设Ba = 0。其次，我们用线性函数 $ y = f1 - f2 $ 逼近(非线性)决策函数d =符号(f1 - f2)。

在单个神经元水平上(上图A,B)和群体水平上(上图C,D)，所得到的模型状态动力学与大脑活动非常相似。此外，状态动力学是低维的，这是成功压缩的标志(上图D)。事实上，当我们直接观察线性子空间Φ时，我们可以看到它由两个维度所主导(上图F)。具体来说，这两个维度将历史空间划分为两个部分，一个用于最近的观察，即f2，另一个用于过去的观察，即f1(上图F)。刺激的时间信息因此被压缩，类似于非参数情况。

在这里插入图片描述

上图中，A表示两个PFC神经元刺激前后时间直方图。B表示对应的模型状态表征（z的两个状态维度）。C，D表示使用了非混合主成分分析后的群体水平比较，其中 C 表示PFC神经元的前三条件独立成分(第一行)和刺激成分(第二行)。D则表示模型状态表征的的相应主成分。E表示不同频率不同大小关系情况的图例。F表示线性子空间的奇异值。G则表示历史空间。

5 结论

本文提出的研究旨在解决目前工作记忆和决策领域的一些争论。从这个意义上说，我们的工作有潜力在概念上影响和推进这一领域。需要注意的是，我们的工作并不寻求在性能方面推动机器学习的state of art。这里使用的非参数方法也是局限的，不能扩展到更大的架构，它们的好处在于清晰的可解释性，而不是性能。

主要结果是通过推导说明如何根据两种不同的行为目标以不同的方式压缩任务状态空间。。作者为这个问题导出了一个规范的非参数解决方案，表明通过一些微小但有价值的调整，这些不同的压缩策略在不同模型物种（小鼠和猴子）的两个任务中不同地预测低阶神经现象。