Author: Pushpak Pati
Publication: Medical image analysis
Introduction
组织标本的癌症诊断、预后和治疗反应预测高度依赖表型和构成组织实体的拓扑分布。因此,适当的组织代表编码组织实体是计算机辅助癌症患者护理的当务之急。为此,有几种方法利用细胞图,捕捉细胞微环境,以描绘组织。这允许利用图论和机器学习将组织表示映射到组织功能,并量化他们的关系。虽然细胞信息是至关重要的,但它是不完整的综合表征复杂的组织结构。在此,他们将组织作为多种类型的组织实体从细到粗的层次组成,在多个层次上捕获多变量组织信息。他们提出了一种新颖的组织标本多层层次实体图表示方法,以模拟编码组织实体及其内部和实体间层次交互的分层组合。在此基础上,提出了一种分层图神经网络,将组织结构映射到组织功能。具体来说,对于输入的组织图像,他们利用定义明确的细胞和组织区域来建立分层细胞到组织图表示,并设计一个信息传递图神经网络HACT-net来对HACT进行分类。作为这项工作的一部分,他们引入了乳腺癌(BRACS)数据集,(HE染色)。
Related work
CNN的局限:
在固定大小的输入patch上运行的CNN,被限制在一个固定的视场,并被限制吸收来自不同空间距离的信息。此外,CNN基于像素的处理忽略了组织学意义实体的概念,如细胞、腺体和组织类型。对组织学实体的忽视严重限制了病理学家对CNN的可解释性,在基于CNN的诊断框架中,任何已经建立的实体层面的先验病理知识的利用。此外,CNN忽略了组织的结构组成,细小的实体层次地构成粗的实体,如上皮细胞组织形成上皮细胞。上皮细胞再形成腺体。这种层次结构对诊断和解释都是有意义的。
为了解决这个问题,本文提出了一种多级实体图表示方法,即细胞-组织层次图,该方法由多种类型的实体集(即细胞-组织层次图)组成,对细胞和组织微环境进行编码。实体的多集本质上是耦合的,在多个尺度上描述组织组成。HACT图形编码个体的属性和实体内部和实体间的关系,以层次地描述一个组织图像。在图构造的基础上,一种基于图结构数据的深度学习技术---图神经网络(GNN)对实体图进行处理,以进行图像分析。具体来说,他们引入了一个分级的GNN,分层细胞到组织网络,对HACT图进行从细到粗的顺序操作,为图像提供一个固定的维度嵌入。该方法编码了多组实体在组织中的形态和拓扑分布。有趣的是,他们提出的方法类似于临床实践中的组织诊断程序,病理学家对组织进行分级分析。
他们提出了一种由HACT图构造和基于HACT - net的组织学图像分析组成的方法。我们描述乳腺肿瘤感兴趣区域(TRoI)来评估我们的方法。Pati等人(2020)提出了这项工作的初步版本。我们在这里的主要扩展包括:1)改进的HACT表示和HACT -Net架构,2)更大的评估数据集(是早期规模的两倍),3)详细的消融研究和公共数据评估,以及4)与独立病理学家的基准比较。
•提出了一种新的层次实体图表示(HACT)和层次学习(HACT - net)方法来分析他的本体图;
•引入一个公共数据集,乳腺癌亚型(BRACS 1),一个大队列的乳腺TRoI注释了7个乳腺癌亚型。BRACS包括具有挑战性的非典型病例和代表现实乳腺癌分析的各种TRoI;
•通过与三位独立的病理学家进行比较,对我们在BRACS数据集上提出的方法进行评估,其中广泛的评估表明,我们在癌症分型方面的分类性能优于几种最近的CNN和GNN方法。而在每类和聚合分类任务上可与病理学家相媲美。
Notion:
1.概念:
定义了一个实体图G(V,E,H)。G是节点V,边E和节点特征H的集合。每一个属于V的节点v都被一个h(v)∈𝑅𝑑表示,因此,H∈𝑅|𝑉|×𝑑。d代表每一个节点的特征数量|.|代表基数。两个节点之间的边缘u,v∈𝑉被𝑒𝑢𝑣所表示。图的拓扑结构用一个对称的邻接矩阵来描述(A∈𝑅𝑉×|𝑉|)。如果𝑒𝑢𝑣∈𝐸,𝐴𝑢,𝑣=1。节点v∈𝑉的邻区被表示为
2.GNN神经网络:
GNN定义为:一种操作图表结构数据的神经网络类别。
在工作中,我们使用信息传递GNNs,在这其中,节点特征h(v),∀v∈𝑉通过两步迭代进行更新:
1)聚集
2)更新
在第一步中,对于节点v,它的邻区N(v)被聚集成 一个单一的特征表示。在第二步中,节点v的特征是通过当前节点特征和第一步中的聚合特征来更新的。采用GNN层形式的一系列T次迭代。获得更新后的节点特征∀v∈𝑉,包含每个节点到最后一次迭代的信息。
最后,节点特征hT(v)在readout步骤中被池化,以一个固定大小的图级嵌入hG。聚集、更新和readout的操作必须是可微的,以允许GNN训练的反向传播。除此之外,聚类和readout的操作必须是置换不变的,这样聚合的表示形式对节点顺序是不变的。
这三个步骤被表述为:
设计GNN的一个重要方面是刻画其表达能力,这是由GNN将非同构图映射到唯一图嵌入的能力来衡量的,它表示图与嵌入空间之间的一种单射映射。图1展示了GIA和PNA架构的插图
Method:
在这个章节中详细介绍了提出的组织层次分析方法;如图2所示
整体流程:对输入的HE染色的组织病理TROI图像,
首先,利用预处理来标准化输入
然后,识别出病理相关的实体,并结合实体的形态和拓扑分布构造出TROI的HACT图表示。
最后,设计了一个分级GNN-HACT-net,将HACT图映射到相应的类别,如癌症子类型。
1.预处理
HE染色的组织病理图像由于各种原因表现出外观的变化,如不同的标本制备技术、染色方案、固定特性和成像设备特性。这种不同对下游诊断的计算方法产生不利影响。为了减少不同,使用Macenko等人提出的未经监督、无参考的染色归一化方案。该算法的原理是,每个像素的RGB颜色是需要估计的两个未知染色向量苏木素和伊红的线性组合。首先,该算法通过对非背景像素进行奇异值分解来估计TROI的染色向量。其次,该算法应用一种校正解释由于噪声而引起的强度变化。不需要模型训练的算法在计算上是廉价的。具体来说,采用了Stanisavljevic等人提出的可扩展和快速地染色管。
2.图表示
一个染色归一化的TROI图像被处理去识别相关的实体以及去构造一个层次的实体图表示。在这项工作中,我们认为核和组织区域为实体。因此,HACT图由三个部分组成:
1)低层次的细胞图,捕捉细胞的形态和相互作用。
2)高层次的组织图,捕捉组织区域的形态和空间分布。
3)细胞-组织层次图,编码细胞相对于组织分布的相对空间分布。
1)低层次的细胞表示图
细胞图(CG)表征细胞微环境,其中节点表示细胞并编码细胞形态,边缘表示细胞相互作用并编码细胞拓扑结构。该算法分为核检测、核特征提取、拓扑配置三个步骤,如图3所示
***精确的核检测使可靠的CG表示。为此,我们使用了Hover-net,这是Graham等人提出的核分割网络,在MoNuSeg数据集上进行了预训练。Hover-net利用核像素到其质心的垂直和水平距离中编码的丰富实例信息。这些距离被用来精确地分割成簇的核,特别是在核重叠的区域。被分割核的质心构成CG中节点的空间坐标。
***在核检测之后,通过在ImageNet上预训练的resnet对h*w大小的以核为中心的小图像块提取形态特征。将核的空间特征提取为核的空间坐标,在TROI维度对其进行归一化。形态特征和空间特征共同构成核特征,这对所有节点配置为
对于CG拓扑ECG,我们利用这样一个事实:空间上紧密的细胞具有更强的相互作用,而距离远的细胞具有更弱的细胞相互作用。因此,利用边缘连接邻近的细胞,以模拟他们的相互作用。
最后利用K最近邻算法(KNN)来建立一个初始拓扑,这个 拓扑后续通过删除比阈值d-min更长的边缘来进行删减。我们利用核中心之间的欧氏距离量化核间距。规范地说,对于每一个节点v,如果
则一个边表示evu被建立。CG拓扑被一个二值邻接矩阵(ECG∈𝑅|VCG|×|VCG|)表示。图3描述了对于一个TROI图像样本的CG表示。规范的说。一个CG表示被描述为:
2)高层次的组织图
组织图描述了一个高层次的组织微环境,其中节点和边缘分别表示组织区域和他们的相互作用。TG的构建首先需要识别组织区域(如上皮、间质、管腔、坏死等),然后编码组织区域,最后构建拓扑结构。步骤如图3所示。Mercan等人采用了一种融合超像素检测和邻域信息聚合的并行方法对组织图像中的组织区域进行语义分割。
组织区域的确定分为两步。首先,我们对组织进行过分割,以检测不重叠的均匀超像素。我们在低放大率下操作,以避免噪声像素并且能够高效计算。具体来说,我们使用了简单线性迭代聚类(SLIC)算法。SLIC采用无监督的方法,将每个像素与一个特征向量关联,并使用K-means聚类的本地化版本合并像素。接下来,我们迭代地合并具有相似颜色属性的相邻超像素,即通道平均,以创建捕获有意义的组织信息的超像素。样本组织区域实例图如图3所示。
为了提取组织区域的特征表示,我们采用了两个步骤:首先,对过分割超像素提取基于CNN的特征,即利用resnet处理以超像素质心为中心的大小为h*w的小块;其次,对组织区域的深层特征进行平均,得到组织区域的形态特征;类似于CG。我们包含空间特征作为组织区域的归一化重心。对于具有一组VTG组织区域的TROI,我们将TG节点特征矩阵表示为
我们假设相邻的组织区域在生物上相互作用最多,因此在TG拓扑中连接。为此,我们构建了一个区域邻接图,在相邻组织区域之间建立了一个边缘。拓扑由二进制邻接矩阵
表示。TG的表示形式为
3)细胞到组织的分层图表示
在组织病理学中,组织可以认为是省事实体的分级或组织,从细级(细胞)到粗级(组织区域)。基于拓扑分布和实体间的相互作用,存在层内耦合和层间耦合。基于这一动机,我们提出了HACT,一种图表示,共同表示低水平和高水平TG。内部层次拓扑已经被CG和TG独立捕获。层间拓扑由二元分配(细胞-组织层次)矩阵
表示该矩阵利用了细胞核相对于组织区域的空间分布。对于第i个核和第j个组织区域,对应赋值为:
一个组织区域的细胞到组织层次结构如图3所示。每个细胞核被分配到一个且只有一个组织区域。如果一个分节核位于多个组织区域的边缘,则该核被分配到与之重叠最多的组织区域。对于给定的TROI,HACT表示法的形式为:
3.图学习:
一个TROI的HACT图是由一个分级的GNN处理的,以将TROI的组成映射到TROI的子类型。为此,我们提出分层细胞到组织网络(HACT-net),如图4所示的分层GNN架构。
1)HACT-net架构和学习
HACT-net以GHACT作为输入,输出一个图像水平的表示
随后,一个多层感知器(MLP)将hHACT分类,例如,归类为一种癌症亚型。
HACT-net包括两个GNN网络:Cell-GNN(CG-GNN)和Tissue-GNN(TG-GNN),对HACT图进行从细到粗的分层处理。在这项工作中,我们利用了GNN和PNA层HACT-net模型的最新进展成果。
具体过程如下:
Experiment: