灵长类动物脑中的人脸识别编码

总结

灵长类动物识别例如人脸的复杂目标有着难以置信的速度和准确度。这里,我们揭示了人脸识别的大脑编码。猕猴的实验描述了一个人脸和人脸块胞元响应之间的转换。通过将人脸在高维空间形成点,我们发现每一个人脸胞元的发射率正比于即将到来的人脸刺激在这个空间单个坐标轴上的投影,这就允许人脸胞元的集合编码空间中任意脸的位置。用这个编码,我们能精确地从神经入口响应中编码人脸以及预测神经对人脸的发射率。此外,这个编码否定了一个长期以来的假设,就是人脸胞元编码特定人脸个体,通过由不同的表观工程结合出的人脸引起单个人脸胞元对个体的响应。我们的工作认为其他的目标可以通过模拟测量坐标系统编码。

引言

神经系统科学的一个核心挑战是理解大脑如何理解一个复杂目标的特性。这个过程被认为发生在颞下皮层(IT cortex),其中的神经元能承载对许多变换保持目标特性不变性的高层信息。然而,仅管对颞下皮层的神经元响应属性有着数十年的研究,单个IT神经元对目标特性的精确编码仍然未知:典型的,神经元对于一个宽广范围刺激的响应以及控制这些有效刺激集合的原理还没有被理解。理想情况下,如果我们对IT皮层有一个完整的理解,我们就能从IT总体响应中解码精确的目标或者反过来对任意目标预测IT响应。由于视网膜和IT皮层之间存在许多层的计算,所以一个IT胞元简单的显式的模型是不可能达成的。

这里我们选择构建一个人脸选择性胞元的显式的模型,使得我们既能从人脸胞元响应中解码任意真实人脸,也能预测对任意真实人脸的胞元激励。学习人脸编码有两个独一无二的好处。首先,猕猴的人脸块系统,在功能性核磁共振试验中的对人脸有着强烈选择性的区域集合,提供了一个强有力的实验模型来分析人脸表示的机制,因为这些区域包含了人脸选择性胞元的高关注点,于是在人脸表示中好像会完成有区别的步骤。其次,人脸作为一个刺激类的同质性允许任意人脸能够被相对小的描述一个人脸空间坐标的数字的集合来表示,促进了对神经元调谐的完整几何形状的系统性探索。

为了探索高维空间的高级感觉神经元的调谐几何,我们记录了用50维参数化的一个大型真实人脸集合在中外侧(ML)/中间眼底(MF)和前内侧(AM)人脸块的胞元响应。我们选择在ML/MF和AM记录是因为早先的功能性和解剖学的实验已经描述了ML/MF和AM之间的分层关系且认为AM是IT人脸处理最终的输出阶段。特别是在AM中发现了稀疏胞元种群,似乎为特定个体编码了样例,因为他们在不考虑头的方向时只对少部分特定个体的人脸响应。这些胞元在整个人脸块系统上编码了人脸个体的最明确的概念,理解他们看起来对从IT皮层获得关于人脸自然编码的完整理解至关重要。

我们的数据揭示了一个在ML/MF和AM人脸块对人脸个体引人注目的简单编码,可以用于从大量响应中解码真实人脸图像以及精确预测神经激活率。在ML/MF和AM中单个神经元本质上就是将到来的人脸在人脸空间表示成向量投影到特定坐标轴。这个模型的一个预测是每一个胞元应该有一个正交于首选坐标轴的线性零空间,所有的人脸都会引起相同的响应。我们确认了这个预测,即使对于那些早先假设显式编码了特定个体样例的稀疏AM胞元。人脸的的单位选择被选作进一步的记录(图 S1B和S1C)
fig S1
图 S1

结果

记录程序和刺激生成

我们首先对两个猴子用fMRI通过表示人脸和非人脸图像的人脸定位刺激来定位六个人脸块。中间人脸块MF,ML和前面的块AM为电生理学记录的目标(图 S1A)。记录表示16个真实人脸和80个非人脸目标时完全孤立的神经元。人脸的单元选择被选作进一步的记录(图 S1B与S1C)。

为了研究人脸patch的人脸表示,我们用活动表观模型生成参数化的真实人脸刺激:为FEI在线人脸数据库的200个正面人脸,用STAR 方法,通过手工标记的关键点集合生成参数化人脸刺激(图 1A)。这些点的位置承载了人脸形状信息和内部特征的形状/位置。这些关键点被平滑地转换到一个标准的模板上(平均人脸形状),于是承载了与形状无关的表观信息。在这种方式下,我们提取了200个形状描述子和200个表观描述子的集合。为了构建真实人脸空间,我们分别在形状和表观描述子上形成了主成分分析,为了在数据库上提取考虑最大可变性的特征维数,为形状和表观分别保留前25个主成分(图 1B与S2A)。这导致了一个50维的人脸空间,每个点表示一个人脸,它们是从平均人脸开始,首先增加表观转换然后应用形状转换到关键点上;原始数据集用50维重建的人脸和原始人脸很像(图 S2B)。大多数的维数是整体的,涉及人脸多个部位的变化;例如第一个形状维度涉及脸际线,脸宽,目高的变化。MovieS1是人脸只经历形状参数变化以及只经历表观参数变化的一部电影。
Fig 1
图 1

为了给我们的记录生成刺激,我们从这个人脸空间随机绘制2000个人脸(图 1C)。真实人脸到50个坐标轴的投影主要是高斯分布,2000个人脸与真实人脸共享一个类似的向量长度分布(图 S2C)。人脸刺激通过150ms开周期和150ms关周期交替的灰色屏幕表示,对同样的2000个刺激的集合都表示到每一个胞元3~5次。我们从两个猴子那一共记录了205个胞元:猴子1号来自ML/MF块共51个胞元以及来自AM的64个胞元;猴子2号来自ML/MF的55个胞元以及来自AM的35个胞元。
Fig S2
图 S2

人脸块ML/MF和AM承载了人脸特征的补充信息

为了量化人脸空间50维的神经调优,每个神经元的响应首先用来计算一个突波触发平均(STA),即触发神经元发射的平均刺激(图 1D)。每个胞元平均在6.1个特征维度调优(以SD=3.8覆盖范围[0 17])。我们下面比较每一个神经元对形状或表观的相对敏感度:为形状和表观维度基于STA向量长度计算形状偏好索引。我们发现大多数ML/MF胞元在形状维度上表现出比表观维度更强的调优,AM单元则显示出了相反的趋势(图 1E-1H)。用刺激子集计算出的形状偏好索引是高度相关的(折半法,correlation=0.89 ± 0.07,n=205个胞元,见STAR方法);因此,ML/MF和AM中首选轴之间的差别是真实的(图 1G)。此外,这个差别和早先研究表现出的ML/MF胞元调优到特定人脸视角而AM胞元编码视角不变身份信息是完全一致的。身份的变化将在表观维度内产生变化,视角的变化(偏离正脸的一个限制范围内)将通过形状维度的变化来解释。重要的是,因为形状维度包含了比只有视角转换更大的转换集,所以AM胞元对于表观信息的调优表明对于关节型形状上比只有视角变换大得多的转换集上的不变性,与人脸识别除了视角变换以外的许多转换,例如在人脸纵横比严重扭曲上的不变性是一致的。

下面我们探索ML/MF和AM神经元对形状/表观信息调优的形状。当一个样例AM神经元的响应根据50-d人脸空间内沿STA轴上刺激与平均人脸(即人脸空间原点处的人脸)的距离来分组,我们看到了在极端特征值下发生最大最小响应的类似斜坡的调优(图1I)。这样类似斜坡的调优同样可以在沿着STA维度观察AM和ML/MF的整个分布得到(图 1J),对于个体维度也很清楚(图 1K)。

用线性回归解码人脸特征

如果一个人脸胞元对于不同的特征有斜坡形状的调优,这就意味着它的响应能够通过人脸特征的线性结合来粗略近似,加权系数就是斜坡形状调优函数的斜率。对于一群神经元来说, R⃗ =SF⃗ +C⃗  ,其中 R⃗  是不同神经元响应的向量,S是不同神经元的加权系数矩阵, F⃗  是人脸特征值的50维向量, C⃗  是偏移向量。如果这是正确的,则通过简单地反相这个公式,我们可以从总体响应中线性解码人脸特征。为了尝试,我们利用了一个事实,就是我们总是表示对猴子同样的2000个刺激的集合并且使用留一法训练和测试我们的模型。我们在人脸胞元对1999个人脸出现刺激后对从50ms到300ms的时间窗口中的总体响应采用线性回归决定从响应到特征的转换,然后对剩余的图像预测特征值(图 2A)。注意到,在这个解码过程中,我们使用连续记录的胞元;如果大脑也使用一个类似的解码方法,他可能同时使用神经元发射。
Fig 2
图 2

我们发现这个简单的线性模型能够很好地预测单个特征(图 2B)。我们采用线性模型产生的特征值的百分数方差来量化解码的质量。总的来说,AM单元表观特征的解码质量比形状特征更好,ML/MF神经元正好相反(图2C和2D),这与我们用STA的分析是一致的。通过结合所有50维的预测特征值,我们将重建猴子看到的人脸。重建的人脸样本展示在图3A紧挨着真实人脸的地方,用 ML/MF数据,AM数据以及从两者结合的数据。用AM数据的重建结果很像猴子看到的真实人脸,增加MF/MF数据会进一步增加相像性。
Fig 3
图 3

为了量化我们的模型整体解码准确率,我们从刺激集合中随机选择了一些人脸,然后比较了他们实际的50维特征向量和用欧几里得距离对集合中的一张人脸重建的特征向量。当所有的胞元集中起来时解码准确率随着增加的人脸数而衰减,40个人脸衰减了~75%(图3B,黑实线),比机会水平高很多(图3B 黑虚线)。此外,当胞元数目相等时,ML/MF和AM种群相结合的解码准确率相比于单独解码上升最快(图3C,对n=99,结合与AM比p<0.01;结合与ML/MF比p<0.005;采用替代随机采样1000次来估计,见STAR方法),与这两个区域分别携带形状和表观的互补信息一致。我们也通过使用人类心理物理学测量重建和实际人脸的主观相似度求出解码的准确率,发现人类受试者与一个高度相似的干扰选择相比更倾向于用实际人脸匹配重建。我们能够从ML/MF和AM的种群响应准确地解码真实人脸身份信息的事实表明,我们满足一个对人脸身份大脑编码完整理解的基本测试。

沿着正交于STA轴调优的形状

用于解码的模型假设人脸块神经元线性结合了不同特征(轴模型)。虽然简单,但是这个编码和IT胞元功能的流行观念不一样,特别是稀疏AM胞元。很多目标识别的模型假设一个基于样本的表示(图4G,右),目标识别通过单元调优到需要被识别的特定目标的样本来调解。早期的研究尝试为IT胞元假定的这样一个基于样本的模型找到最优目标。更多对基于样本的模型直接的支持来自人脸块AM的记录,发现一个胞元的子集只对少量个体有非常稀疏的响应,并对头的方向具有不变性(见图1和movie S2)。这些胞元已经假设编码了特定个体的样本,类似于在人类海马体中记录的”Jennifer Aniston”胞元对图像、字符串和一个特定个体声音的响应。如果AM胞元实际上线性结合了不同的特征,则几何上一个AM胞元在做的就是测试人脸和胞元STA定义的人脸空间一个特定方向的点积(图4A,插图)。如果这是真的,则每一个胞元都应该有一个胞元响应不再变化的零空间。这个零空间是简单正交于STA的平面,因为在这个平面内增加一个向量不会改变投影到STA的值。与此相反,如果AM胞元编码特定个体的样本,则对测试人脸的响应将是关于其与样本人脸距离的递减函数。
Fig 4
图 4

为了决定一个胞元是编码一个样本还是一个轴,关键问题是在正交于STA轴的平面内沿着轴调优的形状是什么?如果这个平面构成一个零空间,所有人脸都得出相同的响应,这就表示是轴编码。如果在这个平面内沿着轴是高斯调优,这就意味着是样本编码。为了辨别这两种可能,我们在25维的表观特征空间内(图4A)沿着正交于STA的轴量化AM胞元的调优;我们故意排除25维形状特征空间以避免形状不变导致沿正交维度的平滑调优。为了获得更好的信号质量,我们沿着多个占刺激中最大变化的调优做平均(见STAR方法;结果对于单轴也保持正确,见图S3)。奇怪的是,AM神经元的调优沿着正交轴很大程度上是平滑的,没有高斯非线性引起的偏置。
Fig S3
图 S3

为了定量确认平滑性,我们比较了一些模型的结果(图4B和S3B-S3D)。第一个模型为每个记录的AM胞元定义一个相应的模型样本胞元,它对特定的样本发射率最大,且发射率关于测试人脸和样本人脸距离线性衰减。我们通过将原始FEI数据库的200个真实人脸之一投影到25维的表观特征空间选择样本人脸。模型单元的稀疏和噪声都设置为等于实际单元。正如所期望的,模型单元沿着正交轴显示出了清晰的钟形调优(图4B1)。在第二个样本模型中,我们通过一个经典的max-pooling操作实现了视角不变性:每一个单元包含对应同一个个体不同视角和位置的模板集合,单元对一个人脸的响应是人脸和每一个模板相似度的最大值(相似度定义为两个图像之间平均绝对像素差异的递减线性函数)。这个模型也描述了一个清晰的钟形非线性(图4B2)。

你可能会担心我们在正交平面内的平滑调优可能是由于种群中没有调制任何胞元的维度的贡献;受限于AM的STAs张成的实际人脸空间的响应分析表明情况不是这样的(图S4A-S4H)。另一个担心是胞元可能采用椭圆距离测度编码样本,导致沿某些维度的调优更宽;模型样本单元的分析显式被赋予非圆形反射比排除这种可能性(图S4I-S4L)。
Fig S4
图 S4

一个进一步潜在的混淆因素是适应:IT皮质的胞元对于更频繁的特征值会更强地抑制。我们的刺激沿着每一个轴是高斯分布的;结果离平均值更近的人脸出现的更频繁。为了排除我们的发现是特定于我们的刺激的可能性,我们通过重分组之前的刺激检查了记录胞元的适应范围。我们首先检查了之前的刺激是怎么影响沿着STA维的调优的。每一个胞元的响应根据紧之前的刺激和平均人脸沿着STA维的距离重新分组为一个远(33%最大距离)和一个近(33%最小距离)。如果适应扮演了重要的角色,就希望看到两组之间清晰的差异(例如,可能期望近组的调优函数的中心比远组更加抑制)。然而,我们没有观察到两组调优的差异(图 S5A-S5D)。类似于沿着STA维的结果,我们发现适应性沿着正交轴的重塑调优也只扮演了小角色(图S5E-S5H)。
Fig S5
图 S5

目前为止的结果认为AM胞元编码特定的轴而不是样本。我们怎么才能使得这个发现与稀疏性的存在相一致,视角不变的AM胞元对于特定的样本具有选择性?为了解决这个问题,我们将AM胞元作为稀疏性的函数来检查调优形状。我们发现,对于我们参数化的刺激,一些AM胞元也会稀疏地响应(图4C展示了一个样例)。然而当我们在一个由STA何一个正交轴张成的2d空间看这些稀疏神经元的调优时,他们沿着STA展示出猛烈的非线性但是在正交轴几乎没有调优(图4D展示了一个样本;作为比较,图4E显示了一个非稀疏胞元的响应)。当我们针对稀疏性画出沿着正交轴的非线性等级时,我们发现AM神经元无论响应的稀疏性如何都比两种控制模型调优更少(图4F和S3E-S3H)。此外沿着正交轴调优的缺乏提供了一个简单的解释,关于为什么一些AM胞元,甚至特别稀疏的,对一些没有明显相似性的人脸都响应;这些人脸是同分异构的因为他们在胞元的零空间相差一个大的向量(图4D的箭头)。

我们对ML/MF胞元重复了上述分析,发现ML/MF胞元也对STA定义的单轴调优,而在正交于STA的超平面有平滑地调优(图 S4M和S4N)。因此,ML/MF与AM的基本差异在于编码的轴(形状vs与形状无关的表观),而不在于编码方案。

一个完整的人脸处理模型应该同时允许对任意人脸神经响应的编码和解码。轴模型对真实人脸胞元发射率的预测怎么样?为了解决这个问题,我们将人脸胞元的响应拟合成两个模型,一个轴模型和一个样本模型(图4G)。在轴模型中,我们假设胞元只是简单做测试人脸(通过一个50-d的形状表观向量描述)和一个特定轴的点积,然后将结果通过一个非线性。在样本模型中,我们假设胞元计算测试人脸和特定样本人脸的欧几里得距离,然后将结果通过一个非线性。非线性允许我们解释沿着STA轴的非线性调优。我们对一个1900张人脸集合的响应去拟合出这两个模型,对一个不同的100人脸集合的响应做测试。为了获得高信号质量,这100张人脸重复十倍于剩余的1900张人脸。我们发现轴模型可以解释高达57%的响应的变体,超过样本模型15%(图4H和4I)。我们比较了用一半试验的平均响应去预测另一半平均的方法估计出的胞元噪声上限,在Spearman-Brown校正之后产生了72%可解释的变动(图4J)。轴模型解释的变动和数据解释的比例是80%,远高于早先的48.5%。我们也训练了5层神经网络来执行不变人脸识别,然后再这个网络的输出神经激活上回归AM胞元的激活,类似于之前的一个用在不变目标识别上训练的CNN输出单元去建模IT响应的研究。我们发现这个能解释30%变动(42.5%的噪声上限)(图4K),远低于轴模型的性能,与早先研究的结果差不多(48.5%噪声上限)。此外我们比较了轴模型和一个著名的人脸模型:Eigenface模型,它计算原始图像的主成分而不是形状和表观表示(STAR方法,见图S2G)。这种情况下,50个”Eigenface”特征都用于模型的轴。我们发现”Egienface”模型能够解释31%的变化(图4L),远低于轴模型。这表明选择正确的人脸空间轴对于获得人脸胞元响应的简单解释是至关重要的。

到目前为止,我们所有的结果都指向人脸胞元的模型是作为线性投影机器的。虽然简单,这个模型也是惊奇的,因为这意味着人脸胞元在执行一个非常抽象的数学计算。我们下面对模型执行一个强测试:(1)我们在记录时在线计算胞元的STA,(2)我们用STA为胞元建立一个预测人脸同分异构体的集合(即位于正交于STA平面的人脸),(3)我们测量胞元对这些同分异构体的响应。特别地,我们均匀的从一个STA轴和主要正交轴张成的2-d空间采样来表示人脸(图5A,STAR方法),从STA已测量过的同一个胞元中记录。我们发现,正如预测的结果一样,人脸胞元只沿着STA轴有强响应,几乎与沿着正交轴变化的人脸响应相同(图5B-5E)。
Fig 5
图 5

轴编码模型对于视角变换是宽容的

一个人脸块AM的显著特征是视角不变的:AM神经元选择性地响应与头的方向无关的特定个体图像。然而,胞元采用什么样的机制计算视角不变是未知的。胞元如何从正面或侧面识别同一个人?他们是选择正面和侧面公共部分的特征子集吗?如果是这样,这些特征是什么?为了解决这些问题,我们用我们主要的刺激集在与正面人脸主成分共轭的维度生成一个50-d 全侧脸人脸空间(比较图S2E和图S2A)。我们记录了46个AM中的胞元在这个侧面人脸空间得到的侧面人脸刺激的响应(在我们原始的刺激集中随机交叉存取2000个正面人脸)。我们发现正面和侧面STAs在表观维度的胞元是高度相关的(图6B-6D)。此外,胞元对侧面人脸维度显示出了与正面人脸维度一样的斜坡状调优(图6E)。最后,表观偏置胞元的视角不变性(由正面和侧脸STA维度相关性量化)比形状偏置胞元更强(图6F)。总之,这些发现表明AM胞元把正面和侧面人脸分别投影到正脸和侧脸空间对应的的表观轴上。
Fig 6
图 6

侧脸和正脸表观参数调优的高相关性表明我们应该能够独立于人头的方向从AM胞元活动性上解码人脸。我们下面用分布响应上的线性回归解码正脸和侧脸的回归值,类同于图2和3。重要的是,对于每个胞元,我们用完全一样的51个模型参数来拟合侧脸和正脸的响应(而不是分别51个),受正脸和侧脸表观参数调优高相关的启发(图6B-6D)。我们发现即使只用46个胞元,我们也可以很好预测侧脸(图6G和6H)。为了量化解码的准确率,我们像图3B一样分别对正脸和侧脸(但是使用同一模型)执行相同的分析。我们能够很好识别正脸和侧脸并非碰巧(图6I)。总的来说,这些结果显示一个简单的模型(即线性投影一个简单的表观STA轴)能够负责AM胞元对不同视角人脸图像的响应。

轴度量相比距离度量上的计算优势

为什么ML/MF和AM选择线性投影到人脸轴来表达人脸?早先的研究认为在一个复杂的任务中对不同任务变量响应的非线性混合是有必要的,用来生成能够很灵活地通过线性分类器沿着多个维度读取的高维表示。然而在人脸表示中,空间本来已经是高维的;因此,线性编码能够很充分。为了测试这个想法,我们训练了一个简单的单层神经网络来识别200张人脸中的一张(图7A2)。网络的输入包含200个单元,对人脸的调优通过非线性距离测度(测量一个特定人脸到样本人脸的距离)或线性轴测度(测量人脸到轴的投影)定义。我们变化输入刺激空间的维数,发现对于低维来说距离测度比轴测度表现要好,但是对高于6的维度表现差不多(图7A3)。两个进一步的模拟描述了轴测度的优势。首先,轴更有效,它允许更小的单元数来达到类似的性能。当我们根据一个距离测度在一组对人脸调优的单元上执行主成分分析,我们发现主成分在空间显示出线性调优,与轴测度一致(图7B1和S6B),表明同样数目的对轴调优单元捕捉了比用距离的单元更多的变化性。为了显式比较轴和距离单元的有效性,我们执行和图7A一样的分析,但是只用10个输入单元(图7B2),发现轴测度在高于3的维度上执行地更好(图7B3)。我们可以对颜色编码作一个类推,能通过大量对色调调优的的胞元完成,如长春花色、黄绿色,或者更有效地,胞元投影到RGB三个轴编码。线性调优的第二个优势是鲁棒性,在图7A中用一个轴或距离测度训练的网络的加权矩阵,轴模型的输出单元比距离模型接收到了更多分布的输入(图7C1)。有相似型号但独立噪声的线性池化输入将帮助提高信号质量(图7C2),导致一个轴模型在噪声条件下执行更好。为了测试这个想法,我们在图7A中重复了相同的分析但是在输入中加入了大量的随机噪声(图 7C2,下)。我们发现,对于高于3的维度,轴模型比距离模型执行地更好(图7C3)。最后,轴测度赋予下游区域以更高灵活性读出AM的激活以便区别沿着不同维度的变化。如果人脸特征和响应之间有一个线性关系,则可以线性解码人脸特征(图3)并灵活地使用它们用于任何目的,不仅是人脸识别还有其他任务,例如性别区分或者熟悉人脸日变化识别(图7D)。总之,轴编码与样本编码相比在高维空间的目标表示更灵活,有效,对噪声鲁棒。
Fig 7
图 7

Fig S6
图 S6

讨论

文献

The Code for Facial Identity in the Primate Brain

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值