论文地址:https://www2.cs.sfu.ca/~hamarneh/ecopy/neuroimage2017.pdf
Abstract
我们提出了BrainNetCNN,这是一种卷积神经网络(CNN)框架,用于预测脑网络的临床神经发育结果。与传统的基于图像的CNN中进行的空间局部卷积相比,我们的BrainNetCNN由新颖的边缘到边缘,边缘到节点以及节点到图形的卷积滤波器组成,它们利用了结构脑网络的拓扑局部性。我们应用BrainNetCNN框架从早产儿的结构性脑网络预测认知和运动发育结果得分。在胎龄为27至46周之间采集的早产儿的弥散张量图像(DTI)用于构建结构性大脑连接网络的数据集。我们首先通过模拟的伤害模式和增加的噪声展示BrainNetCNN在合成幻象网络上的预测能力。 BrainNetCNN在具有局灶性和弥散性损伤模式的两个体模上均优于具有相同数量模型参数的完全连接的神经网络。然后,我们将我们的方法应用于联合预测Bayley-III认知和运动评分的任务,该评分在18个月大时进行了评估,并针对早产进行了调整。我们显示,在相同数据上,我们的BrainNetCNN框架优于其他方法。此外,BrainNetCNN能够识别婴儿的月经后年龄(大约2周内)。最后,我们通过可视化大脑中每个连接相对于预测结果得分的重要性来探索BrainNetCNN所学习的高级功能。然后,在发育中的早产儿大脑的解剖结构和功能的背景下讨论这些发现。
1. Introduction
早产使婴儿面临各种认知和神经运动挑战的较高风险。尽管由于改善了照护而使早产儿的死亡率降低了,但全世界几乎每个国家(有出生统计数据的国家)早产率都在增加[1]。有了有关出生后不久(即通过脑成像)的特定脑损伤或异常的信息,就有可能预测神经发育结果,甚至有可能通过有针对性的早期干预来改善这些结果[2,5]。然而,由于发育中的婴儿大脑的复杂性和可能影响发育的众多混杂因素,对认知和神经运动结果的预测仍然是一个具有挑战性的问题。最近的一些研究已经使用了结构脑网络的拓扑特征,这些拓扑特征是从扩散张量图像(DTI)派生而来的,将正常神经系统的得分从异常低的总体神经和神经运动功能分类[11,53]。其他研究已经证实,基于DTI的特征,例如大脑某些区域的分数各向异性(FA)与早产儿的神经发育结果相关[3,15]。
在这里,我们使用DTI衍生的早产儿的结构性大脑连接网络(即,连接组)来预测针对18个月龄进行评估并针对早产进行了调整的Bayley-III认知和运动评分。 虽然分数的直接预测(即回归)可能比异常预测(即2类分类)更难,但具有实际的预测分数可能更能说明婴儿的发育情况。 为了执行此预测任务,我们采用了深度学习方法。
人工神经网络(ANN),特别是卷积神经网络(CNN),最近在对医学图像数据执行预测任务方面取得了很大的成功[17、18、41]。 当重要特征过于复杂而无法设计甚至无法被人类观察者识别时,CNN尤其有用[31]。 在本文中,我们提出了BrainNetCNN,这是一种新型CNN,具有专门设计的用于大脑网络数据的边对边,边对节点和节点图卷积层类型。 这些新颖的层类型实际上是更通用的卷积滤波器的特定情况,这些滤波器在网络拓扑方面具有有意义的解释。 BrainNetCNN是第一个深度学习框架,具有专门为大脑网络数据设计的体系结构。
我们在合成图数据和DTI衍生的早产儿脑结构网络上验证了BrainNetCNN。 我们的婴儿数据集由来自早产儿的一组168张DTI图像组成,并在月经期(PMA)后27至45周之间进行了扫描。 由于可用的训练实例数量相对较少(这是许多神经成像应用程序共同的问题),因此CNN具有优势,因为它们在各层之间共享权重,与完全连接的神经网络相比,可以减少要学习的自由参数的数量。 我们首先在合成图形数据的受控实验中证明了这一点,方法是显示BrainNetCNN优于具有相同数量模型参数的完全连接的神经网络。
在早产儿婴儿连接体数据上,我们首先对BrainNetCNN进行测试,以期在扫描时预测婴儿PMA。 BrainNetCNN能够预测婴儿的年龄,平均误差约为2周,表明它可以从连接组数据中学习相关的拓扑特征。 最后,我们将BrainNetCNN应用于预测神经发育分数的更具挑战性的任务。 我们能够在预测分数和真实分数之间实现统计学上显着的相关性,平均预测误差约为11%。 此外,我们证明BrainNetCNN在此任务上比其他竞争性预测方法具有更高的相关值。
最后,我们通过可视化大脑中哪些连接最能预测年龄,认知结果和运动结果来探索CNN所学的高级功能。 我们发现对于预测年龄重要的边缘在整个大脑网络中分布良好。 同样,我们发现对于运动成绩预测重要的边缘与已知负责运动功能的区域相连,而其他独特的连接对于预测认知得分也很重要。
1.1. Related Works
将大脑作为结构性的大脑网络来推断或预测成年人的损伤和疾病的有用性已得到广泛认可[19,23,37,52]。但是,只有极少数的研究将这些技术应用于婴儿扫描。 Ziv等。使用源自DTI的大脑网络检查了是否有可能预测出生后6个月婴儿的总体神经系统健康状况。他们采用了经过高级拓扑特征训练的支持向量机(SVM)[53]。在我们最近的工作中,我们使用相似的特征来预测出生后不久获得的早产儿在18个月时的神经运动发育结果[11]。
虽然在某些临床应用中已经很好地确定了ANN在医学图像分析中的应用,但近来它在神经系统应用中的使用才变得更加流行[51,50,34,33,9,49,48,22]。例如,最近,人工神经网络已被用于对多发性硬化症患者的脑部病变进行分割[51],在多模式MRI体积中对脑部肿瘤进行分割[22],并对不同类型的小脑共济失调进行分类[50]。最近,各种深层结构也已用于预测阿尔茨海默氏症疾病进展的阶段[34,33,49,48]。同样,Brosch和Tam使用深层信念网络来学习描述描述阿尔茨海默氏症患者人群变异的多种方法[9]。然而,这些研究中的网络都是通过大脑结构的标准网格状MR图像而不是大脑结构的图形或网络表示来训练的。
很少有论文将人工神经网络应用于大脑连接数据。 Munsell等。使用完全连接的深度自动编码器从连接组中提取特征,但未明确考虑完全连接层中的大脑网络结构[37]。 Plis等。探索了深度信念网络在功能性MR(fMRI)和标准MR脑数据上用于各种分类任务的方法,但将每个输入图像的空间尺寸折叠为单个体素矢量[39]。
最近,布鲁纳等。和Henaff等。研究表明,CNN可以应用于图形域上的数据(与诸如图像之类的网格数据相对)[12,27]。他们的工作紧随Shuman等人的工作。他展示了如何将卷积泛化为图形化结构域[45]。在那些作品中,输入信号是在图的节点上给出的,并且为所有样本固定了一组边缘权重。相反,对于结构性脑网络的情况,输入信号作为边缘上的权重给出(反映例如连接强度),这意味着每个样本的边缘权重集不同。因此,这些著作所描述的技术并不立即适用于大脑网络数据,因此,在这里,我们为任务介绍了专门的过滤器。但是,如Shuman等人所定义的,图上的卷积之间存在关系。以及我们在本文中提出的边缘到边缘滤波器(在2.1.1节中有详细介绍)。
最后,最近的一些工作利用图核来促进基于核的连接组数据学习[29,20]。与图卷积相反,图内核不显式提取图特征,而是定义图之间的内部乘积。然而,据我们所知,这些工作都没有将图核应用于婴儿的结构性脑网络,也没有将其纳入深度学习框架。迄今为止,我们还没有其他工作使CNN适应边缘加权网络并将其应用于人类连接组。
2. Method
在这里,我们介绍了专门为网络数据输入设计的新颖的CNN层类型(第2.1.1、2.1.2、2.1.3节), 本研究中使用的数据集(第2.2节),BrainNetCNN的整体架构(第2.3节),我们如何实施BrainNetCNN(第2.4节),最后是我们的评估指标(第2.5节)。
2.1. CNN Layers for Network Data
DTI派生的大脑网络 G = ( A , Ω ) G=(A,\Omega) G=(A,Ω)是患者大脑中白质连接的紧凑表示,其中 Ω \Omega Ω是代表大脑区域的一组节点,而 A A A是加权邻接矩阵 代表每对大脑区域之间的连接强度(通常定义为连接这些区域的白色物质的数量)。
将人工神经网络应用于脑网络数据的一种方法是忽略脑网络的结构,并将输入边缘权重视为特征的向量[37]。 但是,这种方法放弃了数据固有的边之间的拓扑关系。 一种替代方法是将邻接矩阵视为图像,并使用设计用于捕获图像的空间2D网格局部性的已建立的卷积滤波器(例如5×5滤波器)。 但是,邻接矩阵项之间的空间局部性并不直接对应于脑网络中的拓扑局部性。 对于位于 A i , j A_{i,j} Ai,j的条目,仅第 i i i行和第 j j j列内的那些元素在拓扑上是局部的,因此用于图像的典型网格卷积滤波器在此处不合适。
当我们将CNN范式适应脑网络数据时,我们考虑了图像和脑网络之间的这些拓扑差异。 为了利用邻接矩阵中的结构,我们引入了三种新的层类型:边对边层,边对节点层和节点对图层。 每种层类型都包含一个或多个特定形状的简单卷积滤波器,并在大脑网络上执行特定操作。 BrainNetCNN层包含一个或多个过滤器(相同类型)。 每个过滤器都将前一层的所有特征图作为输入,然后为下一层输出不同的特征图。 请注意,对于以下滤波器类型的所有方程式,为简单起见,我们省略了激活函数和标准偏差项。
2.1.1. Edge-to-edge Layers
边缘到边缘(E2E)层类似于CNN中网格状数据上的标准卷积层,因为它在本地过滤数据。 在类网格数据中,可以根据空间局部性定义过滤器,而根据拓扑局部性定义E2E过滤器,将共享节点的边的权重组合在一起。
形式上,令 G l , m = ( A l , m ; Ω ) G^{l,m} =(A^{l,m};\Omega) Gl,m=(Al,m;Ω)表示CNN的第 l l l层的加权脑网络的第m个特征图,其中 Ω \Omega Ω是与脑区域相对应的节点集,而 A l , m ∈ R ∣ Ω ∣ × ∣ Ω ∣ A^{l,m}\in \mathbb{R}^{|\Omega|\times|\Omega|} Al,m∈R∣Ω∣×∣Ω∣ 是包含网络边缘权重的邻接矩阵。 每层都将 M l M^l Ml特征图作为输入,对于本研究,我们假设 M 1 = 1 M^1 = 1 M1=1(即,整个CNN的输入特征图只是描述一个连接组的单个邻接矩阵)。 由于节点的数量在输入和输出之间不发生变化,因此 Ω \Omega Ω保持常数不变,并且E2E层的输出是一个经过过滤的邻接矩阵,定义为:
其中
[
c
l
,
m
,
n
,
r
l
,
m
,
n
]
=
w
l
,
m
,
n
∈
R
2
∣
Ω
∣
[c^{l,m,n},r^{l,m,n}]=w^{l,m,n}\in \mathbb{R}^{2|\Omega|}
[cl,m,n,rl,m,n]=wl,m,n∈R2∣Ω∣
这样
[
w
l
,
1
,
n
,
⋯
,
w
l
,
M
l
,
n
]
∈
R
2
∣
Ω
∣
×
M
l
[w^{l,1,n},\cdots, w^{l,M^l,n}]\in \mathbb{R}^{2|\Omega|\times M^l}
[wl,1,n,⋯,wl,Ml,n]∈R2∣Ω∣×Ml是第
l
l
l层的第
n
n
n个滤波器的学习权重。 因此,对于
l
l
l层上的每对输入和输出特征图
(
m
,
n
)
(m,n)
(m,n),E2E层学习单个权重向量
w
l
,
m
,
n
=
[
w
1
l
,
m
,
n
,
⋯
,
w
2
∣
Ω
∣
l
,
m
,
n
]
w^{l,m,n}=[w_1^{l,m,n},\cdots, w_{2|\Omega|}^{l,m,n}]
wl,m,n=[w1l,m,n,⋯,w2∣Ω∣l,m,n]。在一个层
l
l
l中构成一个输出特征图
n
n
n的所有权重
{
w
l
,
m
,
n
∣
m
∈
{
1
,
2
,
⋯
,
M
l
}
}
\{w^{l,m,n}|m\in \{1,2,\cdots,M^l\}\}
{wl,m,n∣m∈{1,2,⋯,Ml}}的集合定义了一个滤波器。 在图2中针对单个输入特征图说明了E2E过滤器,而在图1左侧以方框图的形式整体示出了E2E过滤器。
在这里插入图片描述
直观地,对于以某种特征图m编码的邻接矩阵中的某个边缘 ( i , j ) (i,j) (i,j),E2E滤波器会像卷积一样计算连接到节点 i i i或 j j j的所有边缘上的边缘权重的加权和。 这意味着将单个权重 w k l , m , n w_k^{l,m,n} wkl,m,n应用于给定节点的所有边缘。 但是,这并不意味着来自给定节点的边缘都将被同等重视。 如果 r j l , m , n r_j^{l,m,n} rjl,m,n和 c i l , m , n c_i^{l,m,n} cil,m,n都很大,则单个边缘 ( i , j ) (i,j) (i,j)的权重可能很高。 然后可以通过不同的网络特征图以这种方式对多个不同的边缘进行加权。
尽管本研究着重于将BrainNetCNN应用于无向图数据,但E2E过滤器可以更广泛地对有向图进行操作。对于对称输入 A l , m A^{l,m} Al,m, E2E滤波器 A l + 1 , n A^{l+1,n} Al+1,n的输出可能是不对称的,因为一般来说, r i l , m , n + c j l , m , n = r j l , m , n + c i l , m , n r_i^{l,m,n}+c_j^{l,m,n}=r_j^{l,m,n}+c_i^{l,m,n} ril,m,n+cjl,m,n=rjl,m,n+cil,m,n不一定是正确的。 滤波器可能会不对称地加权输入。但是,对于无向图,这与具有两个输出要素图(一个上三角,一个下三角)完全相同,因此不必强制执行对称输出。尽管可能设计出类似于E2E过滤器的过滤器,该过滤器仅在上部(或下部)三角形元素上运行,但很可能会排除使用标准卷积过滤器(即E2E过滤器的r和c分量) )。提议的E2E过滤器公式使我们能够利用这些有效的卷积过滤器,并在已建立的CNN软件包中轻松实现此过滤器(请参见下文)。
E2E过滤器类似于2D网格数据堆栈上的 3 × 3 × M l 3\times 3\times M^l 3×3×Ml卷积过滤器,因为对于每个特征图,E2E过滤器将某个点的信号与直接邻居的信号组合在一起,但是这样做 十字形过滤器,而不是盒形过滤器。 请注意,与2D图像不同,大脑网络没有拓扑边界,因此该层的输出可以与输入大小相同,而无需任何填充。 如上所述,另一个不同之处在于,虽然卷积通常作用于在网格节点(或如Shuman等人[45]的情况下通过通用网络)上定义的信号,但此处我们的滤波器作用于 在边缘上定义的信号(即边缘权重)。
可以根据线图的概念来理解图边缘上的卷积与图节点上的卷积之间的联系[24]:令 L ( G ) \mathcal{L}(G) L(G)代表G的线图。 G)是一个图,其中一个节点对应于G中的每个边缘,而一个边缘对应于G中的每个边缘对,它们通过一个节点相连。 L ( G ) \mathcal{L}(G) L(G)的节点采用G边缘上的信号(即边缘权重),并且由于G的节点上没有信号,因此 L ( G ) \mathcal{L}(G) L(G)的拓扑在整个数据集中是一致的。因此,通过构造 L ( G ) \mathcal{L}(G) L(G),舒曼等人在图上卷积的定义。 [45]变得适用于大脑网络数据。事实证明,在S上的E2E过滤器等效于K-hop为1的 L ( G ) \mathcal{L}(G) L(G)上的过滤器,这由Shuman等人证明。 [44]可以写成广义卷积。但是请注意,对于 Ω \Omega Ω的典型大小,大约几十到几百(例如90,如此处的情况), L ( G ) \mathcal{L}(G) L(G)包含 1 2 ∣ Ω ∣ 3 − 1 2 ∣ Ω ∣ ( ∣ Ω ∣ − 1 ) = 360495 \frac{1}{2}|\Omega|^3-\frac{1}{2}|\Omega|(|\Omega|-1)=360495 21∣Ω∣3−21∣Ω∣(∣Ω∣−1)=360495条边,而G仅有 1 2 ∣ Ω ∣ ( ∣ Ω ∣ − 1 ) = 4005 \frac{1}{2}|\Omega|(|\Omega|-1)=4005 21∣Ω∣(∣Ω∣−1)=4005条边,这使得在 L ( G ) \mathcal{L}(G) L(G)上进行操作会占用更多的内存。因此,为了提高效率和易于解释,我们选择根据G而不是 L ( G ) \mathcal{L}(G) L(G)定义E2E滤波器。
2.1.2. Edge-to-Node Layer
边缘到节点(E2N)过滤器从每个特征图中获取一个邻接矩阵
A
l
,
m
A^{l,m}
Al,m(代表一个可能经过过滤的脑网络)作为输入,并输出大小为
∣
Ω
∣
|\Omega|
∣Ω∣的向量。 因此,E2N层的输出定义为:
其中,类似于E2E层,
[
c
l
,
m
,
n
,
r
l
,
m
,
n
]
=
w
l
,
m
,
n
∈
R
2
∣
Ω
∣
[c^{l,m,n},r^{l,m,n}]=w^{l,m,n}\in \mathbb{R}^{2|\Omega|}
[cl,m,n,rl,m,n]=wl,m,n∈R2∣Ω∣ 这样
[
w
l
,
1
,
n
,
⋯
,
w
l
,
M
l
,
n
]
∈
R
2
∣
Ω
∣
×
M
l
[w^{l,1,n},\cdots,w^{l,M^l,n}]\in \mathbb{R}^{2|\Omega|\times M^l}
[wl,1,n,⋯,wl,Ml,n]∈R2∣Ω∣×Ml是第
l
l
l层的第
n
n
n个滤波器的学习权重。 但是,与E2N层的输出特征图位于
R
∣
Ω
∣
×
∣
Ω
∣
R^{|\Omega|\times |\Omega|}
R∣Ω∣×∣Ω∣的E2E层相反,E2N层的第
n
n
n个输出特征图
a
l
+
1
,
n
a^{l+1,n}
al+1,n是
R
∣
Ω
∣
×
1
R^{|\Omega|\times 1}
R∣Ω∣×1的向量。
2N滤波器等效于将邻接矩阵与空间一维卷积行滤波器进行卷积并将结果添加到一维卷积列滤波器的输出的转置中。 通过对连接到 i i i的每个边的传入和传出权重进行加权组合,可以将此操作解释为为每个节点 i i i计算单个输出值。 请注意,如果我们假设E2N过滤器的输入是对称矩阵,则可以删除包含行权重的项 r l , m , n r^{l,m,n} rl,m,n或包含列权重的项 c l , m , n c^{l,m,n} cl,m,n,因为 每个边上的传入和传出权重将相等。 在本文的所有实验中,我们仅将E2N滤波器与 Ω \Omega Ω一起使用。 r中的行权重,因为在通过对称连接组数据进行训练时,我们在经验上没有发现学习传入和传出边缘的单独权重方面的任何明显优势。
与E2E层相似,E2N层不必丢弃具有特别重要意义的有关不同边缘的信息:如果权重 r i l , m , n r_i^{l,m,n} ril,m,n, c i l , m , n c_i^{l,m,n} cil,m,n, r j l , m , n r_j^{l,m,n} rjl,m,n和 c j l , m , n c_j^{l,m,n} cjl,m,n,如果所有元素都相对较大,则将对边缘 ( i , j ) (i,j) (i,j)进行特别加权,并且通过多个特征图,可以用这种方式对许多边缘进行高度加权。
2.1.3. Node-to-Graph Layer
最后,类似于E2N层,节点到图形(N2G)层降低了输入的维数,在这种情况下,通过对节点进行加权组合以输出单个标量,
每个输出要素图,n。 N2G滤波器(也是一维空间卷积)在E2N滤波器之后应用,并将每个要素图的原始输入的空间尺寸减小为单个标量。 在将E2N过滤器(将相邻边缘的响应汇总为一组节点响应)之后应用的情况下,N2G过滤器可以解释为从图中的所有节点获得单个响应。
2.2. Preterm Data
这项研究的数据来自一组早产婴儿,PMA在24至32周之间,并在加拿大温哥华的BC儿童医院拍摄。该数据在本研究中的使用已获得不列颠哥伦比亚大学临床研究伦理委员会的批准。如Booth等人所述。 [7],在排除扫描质量差的图像后(简而言之,首先是通过目视检查DTI,然后通过检查束线摄影结果中是否存在严重的伪影和方向偏差),对115名婴儿进行了扫描。大约一半的婴儿进行了两次扫描(出生后不久,然后在PMA约40周时再次扫描),总共扫描了168次。对每个DTI进行全脑流线束摄影术,以恢复每个大脑中的神经元连接。使用|Ω|的新生儿图集=北卡罗来纳大学(UNC)教堂山分校的90个解剖区域[43],通过计算连接每对解剖区域的束的数量,每次扫描都构建了一个加权的,无向的网络。将每个网络表示为一个90×90对称的邻接矩阵,沿对角线为零,并将其缩放为[0,1]。调整早产后的18个月大时,使用Bayley婴幼儿发育量表(Bayley-III)评估每个受试者的认知和神经运动功能[4]。这项测试的认知和运动评分被标准化为总体平均值100,标准差为15。请参见Brown等。 [11]有关评估协议,扫描协议和连接组构建的更多详细信息。
鉴于数据集少(早产儿的DTI在临床实践中不是标准程序)和不平衡(神经发育结局高和低的早产儿数量少),我们采用了合成少数过采样技术(SMOTE)[16] 平衡并增强每个训练集。 将训练样本按得分进行分类(5档),然后重复运行SMOTE,从仓中生成真实样本和合成样本总数最少的合成样本,直到训练集增加256倍。 在我们以前的工作中,我们证明了所提出的LSI方法在改善预测精度方面优于SMOTE [11]。 尽管LSI在这种情况下运行良好,但我们执行的是2类分类,而不是回归。 LSI在这里不适用,因为它会增加各个类别中的数据,在本文中,我们正在对单个训练集进行回归。
2.3. BrainNetCNN Architecture
我们将BrainNetCNN(用于连接组)的体系结构建立在公共CNN(用于图像)的基础上,其中网络的第一部分由卷积层组成,最后一部分由完全连接的(FC)层组成(例如[46] )。 图1是具有代表性的BrainNetCNN体系结构的框图,每种提议的过滤器类型至少具有一层。
BrainNetCNN模型的输入是脑网络G0,表示为90×90邻接矩阵。 网络的输出层具有两个节点,其中每个节点预测不同的神经发育结局评分(运动和认知)。 大小为1×1×30的网络中倒数第二层可以解释为先前层学习的一组高级功能。 为了直接比较BrainNetCNN所学习的功能与Brown等人使用的30种网络测量功能,我们选择了30种功能 [11]。
由于E2E层在整个邻接矩阵上操作(每个要素图),因此只能在E2N和N2G之前应用它们,这会降低输入维数(每个要素图的矢量或标量)。但是,由于E2E层不会改变输入尺寸,因此可以堆叠许多E2E层(需要增加学习数量的参数来进行权衡)。 E2N层将90 x 90矩阵缩减为90 x 1元素的单个矩阵,因此必须在N2G层之前应用。 N2G层将输入维数降低到单个要素(每个要素图),因此无法在E2E或E2N层之前应用。
在下面的实验(第3节)中,我们测试了BrainNetCNN的各种配置。 BrainNetCNN的每种配置都可以理解为具有图1所示层子集的CNN。基本配置(E2Enet)包含每种类型的建议层之一以及3个完全连接的层(即层1、3,图1中的4、5、6和7)。我们还测试了较少层的配置:一个模型删除了E2E层(E2Nnet),另外两个模型类似于E2Enet和E2Nnet,但删除了两个完全连接的层(分别为E2Enetsml和E2Nnet-sml)。为了找到去除这些FC层的良好结果,我们测试了一个模型,该模型具有与E2Enet-sml相同的层,但具有一个额外的E2E层(2E2Enet-sml)。
我们将这些BrainNetCNN配置的结果与一层和两层完全连接的神经网络(分别为FC30net和FC90net)进行比较,该网络不包含任何建议的卷积层。 FC网络的输入是一个1×4005向量,由对称连接组矩阵的上三角值组成。 FC90net与图1中的第5层,第6层和第7层相似,但第5层和第6层之间只有90个响应,从而使可学习参数的数量近似等于E2Nnet-sml和E2Enet-sml中的参数。
通常,来自每个层的输出特征图的数量M`与其他网络参数无关,并且可以自由设置。在BrainNetCNN架构中,我们增加了每一层的特征图数量,以补偿沿其他维度(即,图1中的维度i和j)的减少; CNN的常见策略(例如,[46])。准确地说,E2Nnet-sml具有一个带有130个1×90过滤器的E2N层(第3层从64增加到130,以与其他模型匹配参数的数量),生成尺寸为1×90×130的特征图。接下来是具有特征图大小为1×1×30的N2G层(第4层)和具有大小为2的输出的完全连接的层(第7层)。 E2Enet-sml由1、3、4、7层(图1)构成,E2E层由32个1×90和32个90×1过滤器(第1层)组成,生成大小为90×90×32的特征图。之后是具有64个1×90×32滤镜的E2N层(第3层),生成尺寸为1×90×64的特征图,具有N2G层的特征图为1×1×30的尺寸(第4层),以及输出大小为2的完全连接的层(第7层)。
我们网络中的每一层都使用泄漏非常严重的整流线性单位作为激活函数,如果f(x)<0,则将泄漏值x / 3分配给Graham [25]。为了进行训练,我们在N2G层和FC层之后的128个单位的FC层以0.5的速率进行丢弃(如图1所示(对于完全连接的模型,发现丢弃会稍微改善≈0.01的相关性))。我们使用了0.9的动量,14号的小批量,0.0005的重量衰减和0.01的学习率。微型批次的大小,重量衰减和学习率设置为在完全连接的模型中表现良好的值(请参阅第3.2节)。所有模型都将训练损失最小化,训练损失定义为预测结果与实际结果之间的欧几里得距离,加上网络参数上的加权L2正则化项。
给定模型的理想训练迭代次数取决于模型体系结构和训练参数。因此,为了最大程度地减少对训练数据的过度拟合,并确保在所有模型类型(建议的模型和竞争模型)之间进行公平的比较,我们对每个模型进行了从10K到100K(以10K为增量)的可变迭代次数的训练,并选择了对应于产生最少拟合(即,测试数据的最佳性能)的迭代次数的模型。