Medical Image Recognition,Segmentation and Parsing（第一章）：介绍

医学影像的识别（recognition）、分割（segmentation）和语义理解（parsing）是医学影像分析的核心任务。医学影像识别是指识别医学图像中的目标。理论上，目标的识别并不需要对目标进行检测或定位；但是实际上，通常会结合检测和定位去辅助完成目标识别。一旦完成识别，或检测，即得到了目标的最小外包矩形框（bounding box），就可以通过分割的任务寻找目标物体的精确边界。当图像中存在多个目标物体，对多个目标的分割就变成了语义理解的任务，以对2D图像或3D图像中的像素赋予语义标签（semantic labels）的形式。通过将同一物理的像素或体素打上相同的标签，就完成了该物体的分割。

有效的图像识别、分割和语义理解方法能给临床带来很大的益处。以下重点围绕其对影像扫描、影像读片、高级量化和建模几方面说：

扫描：CT和MRI扫描设备在扫描图像的时候需要设置大量的参数和协议，针对不同病人的扫描，因为需要针对想的设置参数和协议，导致扫描的图像的图像质量有很大的差异。高吞吐量扫描是为了节省成本。保护病人避免接受过多的辐射也是CT扫描关注的点。一个理想的诊断CT扫描是有针对性的对患者的特定区域进行的，不多（减少剂量）不少（获取足够信息）。因此，从侦察图像（预扫描图像）中有效准确的检测到待扫描器官的位置，能够使实际扫描过程中患者接受到更少的辐射、减少时间和成本，增加多次扫描的一致性。
读片用于诊断、治疗二和手术计划：读片过程中，当医生在特定部位或器官上查找病变时，放射科医生需要将体素调整到目标位置。发现病灶后，医生需要生成报告。医学影像的语义分析能够将读片和生成报告结构化为一个线型工作流，从而提高读片的效率、精度。医学影像语义分析也是放射治疗、干预和外科手术在手术规划中的先决条件。
高级量化和建模：如组织体积等临床参数测量，对疾病诊断非常重要。在没有智能后处理软件的协助下，手动的去定义目标并进行参数的测量，在3D的医学影像中，是非常费时间的。自动影像语义分析也能克服多次读片出现不一致结果的情况。最后一点，基于3D目标的分割，使得生物力学和血液动力学建模分析变得可行。

医学影像解析系统的终极目标，是通过解析复杂的语义，和人体解剖基础模型（FMA）进行匹配，将人体结构符号表示为人类可理解的形式，并且机器系统能够导航、解析和解释的。生物医学科学领域最大的计算机知识库中，包含大约75000个种类，超过120000项，2.1百万的关系实体，来源于168中关系类型，将FMA类别连接成为一个连贯的符号模型。Terminologica Anatomica是更简单一些的表示模型，是人类解剖属于的国际标准，包含7500中器官结构。

当前的医学影像识别、分割和配准技术离终极目标还很远，主要关注一下语义目标：

1.解剖标记点（Anatomical landmarks）：人体扫描中，解剖结构信息明确的点，如肝脏顶部、主动脉弓、耻骨联合等。
2.主要器官：肝脏、肺、肾脏、脾脏、胰腺、膀胱、直肠等。
3.主要骨结构：肋骨、椎骨、盆骨、股骨、胫骨、排骨、头骨、下颚骨、手和足骨结构等。
4.病灶、结节等。包括肝脏和肾脏损伤、肺结节、淋巴结等。

1.2 挑战和机会

医学影像分析的临床应用面临着巨大的挑战。主要的挑战来源于解剖目标的形状和外观存在很大的差异，主要由以下因素造成：

传感器噪声/伪音：医学设备本身的物理噪声和图像重建误差。图像为伪影的大小取决于图像的模态和成像参数设置。例如，高剂量扫描的CT图像伪影很小，但是低剂量成像CT则含有很多噪声。另外吗，金属物体（如体内植入物）会在CT影像中产生伪影。在MRI扫描中，伪影来源于磁场本身的不均匀性，梯度的非线性性等。
患者个体差异和患者的移动：患者之间存在体型差异：胖或瘦、高或矮、成年人或小孩等。因此，解剖结构上会有差异。另外，因为患者的呼吸、心跳周期、血液和脑脊髓液的流动、蠕动、吞咽，和其他的自行运动，都会导致产生不同的影像、导致不同的解剖形变。
病理状态，手术和造影剂：病理状态会导致更大程度的解剖解剖形变。这导致统计建模变得非常困难。为了更好地理解潜在的情况，造影剂通常用来为一些特定结构造影使其更好的可视化。造影剂注入后的不同时间图像的表现会不同（造影剂在体内的代谢）。最后，手术切除等会直接完全的改变解剖目标的形状。
部分扫描和视野：剂量辐射是CT扫描中的重要关注点。为了减少剂量，只对必须要扫描的部分进行扫描。这样会产生视野很小的部分扫描图像，导致解剖上下文信息很弱，甚至完全没有。因此，标记点或器官不可见或部分可见。在MRI扫描中，为了加快扫描速度通常只进行最小范围的扫描。
软组织：内部的一些器官都是具有相似特征的软组织，他们（如肝脏和肾脏）相互接触，之间的边界信息非常弱。但是又必须将这些器官不重叠的分割出来。

图1.1（1）展示了3D CT影像下各种情况的不同表现。（b）展示了各种膝关节病理状况。

*图 1.1 （a）举例：CT图像下不同人体区域，严重病例，造影剂，弱对比度等的图像*

图 1.1 (b)不同膝关节病理CT图像，从左到右，从上到下：股骨和胫骨接触，股骨内含金属植入物，有严重缺损的股骨，骨质酥松，未成年人股骨骨质酥松，股骨和髌骨接触题

医学影像的另一个挑战是临床应用对精度、稳定性和速度的严格要求。读片和诊断通常不允许出错。尽管要求很高的精度和稳定性，速度仍不能慢，一个快速的工作流能够确保医院的高吞吐量。放射科和外科医生不会愿意话几个小时甚至几分钟去等待一个分析结果。

面临挑战，必须探索机遇来应对，目前主要包含以下两个机遇：

大数据：医学扫描越来越常见。例如，2005年在美国大约有57百万个体接受了CT检查。到2012年数量超过85百万。大量数据中展现出来的特异性情况，非常具有统计学意义。
解剖上下文：不想自然图像，医学影像具有很强的上下文信息，例如有限数量的解剖目标，约束和结构化的背景，不同解剖结构之间的关系，强先验姿态参数信息等。

根据这些机遇，能够通过大量数据获取这样的上下文信息的统计机器学习方法非常适用于医学影像处理。这本书全文的方法都基于机器学习，还包括对多目标的处理。

1.3 从粗糙到精确的目标表示

任何一个智能系统都开始于一个可理解的知识表示（knowledge representation，KR）。KR起到的最基本作用是“它可以代替物体本身。这就会引出一个精确度的问题：它能够多精确的表示真实的物体？物体最完整的精确表示就是物体它本身，任何其他的表示都是不准确的，它们不可避免地会包括一些的简化假设”。

在相关文献中，有各种不同的简化假设来近似表示医学目标或解剖结构。图1.2展示了文献中常用的不同的形状表示。

刚体表示：最简单的表示是平移模板到目标中心t=[tx,ty,tz]，也就是说只考虑目标中心这一参数。完整的刚体表示平移、旋转和缩放参数θ=[t,r,s]。如果缩放参数是各向同性的（各个方向上缩放的尺度应该一致），刚体变换变为条件更严格的相似变换。刚体变换的扩展是仿射变换。
自由形式表示：图1.2（c-e）展示了常用的自由形式表示，包括基于点的表示（2D曲线S和3D曲面M），Mask函数φ(x, y, z)，水平集函数φ(x, y, z)等。
低维度参数表示：也叫做统计形状模型（statistical shape model，SSM），如图1.2（f）所示，是一种常用的基于点的自由形式形状的PCA分析的低维度参数模型。其他的低维度参数表示包括M-rep，球函数（spherical harmonics，SPHARM），球面小波（spherical wavelets）等。

图 1.2 以2D形状为例，举例不同形状表示。（a）刚体表示（仅平移，t=[tx,ty]）；（b）刚体表示（θ=[tx,ty,r,sx,sy]）；（c）自由形式表示；（4）自由形式表示：2D二值掩膜函数（e）自由形式表示：2D真值水平集方程（f）低维度参数表示：PCA投影

KR是能够用于高效计算的一种媒介。因此，采用分层次的，从粗到精的表示以逐渐逼近物体本身、逐渐提高精度的方式，会使得计算量更可观。

一种常用的从粗到精的3D物体表示由以下几部分组成：

刚体部分：平移、旋转、尺度缩放参数θ=[t,r,s]
低维参数部分，如PCA形状空间（由PCA的主特征系数λ=λ(1：m)表示）
自由形式非刚体部分，如3D形状S，3D曲面M，或3D Mask或水平集函数φ。

$O=[t,r,s;\lambda _{1:m};S]; O=[\theta ;\lambda;M] O=[\theta;\lambda;\varphi ]$ (1.1)

PCA形状空间通过线性投影描述一个形状：

$S={S_{0}}+\sum_{m=1}^{M}\lambda_{m}S_{m}$ (1.2)

S0表示平均形状，Sm表示第m个主特征形状。PCA形状建模形成基本的主动形状模型（Active shape model，ASM）。在这个分层次的表示中，高阶的特征对应的自由形式部分，也能够做到层粗到精。对于3D曲面，曲面的顶点密度可以通过参数控制，从稀疏到密集。对于水平集函数，从粗到精需要通过控制乳香分辨率实现。

1.4 简单到复杂的概率建模

通过3D体素分析单目标物体O，可以表示为后验分布P(O|V)。一旦P(O|V)已知，可以使用最小均方误差估计方法（条件均值）、最大后验估计方法（条件模式），或后验函数，对物体进行分析。对于多个目标 $O_{1:n}$ ，后验分布可表示为 $P(O_{1:n}|V)$ 。

1.4.1 链式法则

当使用粗到精的表示去表示目标O，对整个物体进行联合建模是很难且低效的。为解决这一问题，常用的方式是采用简单到复杂的建模方式，将复杂的任务分解成多个简单的任务。对每一个简单的任务，能容易进行有效的建模。

采用链式法则，将联合分布分解成为多个条件概率：

这就将整个任务分解成为三个更简单的任务。第一个任务将目标当做刚体进行分析，也可认为是目标检测或识别，使用P(θ|V)；第二个任务是则考虑物体的低些低维形状参数，表示为P(λ|V,θ)；第三个任务则将考虑整个完整的物体，表示为P(S|V,θ,λ)，解决分割问题。

实际上，对于单个目标O，完整的对其3D姿态进行有效的建模也是很难的。也可以使用简单到复杂的建模方式：

$P(\theta|V)=P(t|V)P(r|V,t))P(s|V,t,r)$ (1.4)

边缘空间学习（Marginal space learning，MSL）采用了这样一种策略。

处理多目标 $O_{1:n}$ 问题时，也能采用链式法则：

$P(O_{1:n}|V)=P(O_{1}|V)P(O_{2}|V,O_{1}),...,P(O_{n}|V,O_{1:n-1})$ (1.5)

公式（1.5）中的每一个条件概率，还能通过公司（1.3）和（1.4）进步不分解成更简单的任务，结合公式（1.3）-（1.5），就形成了一个通用的计算流程，这个流程中只关注一系列的简单任务，示意图如图1.3（a）。

1.4.2 贝叶斯法则，概率建模和基于能量的方法的等价性

根据贝叶斯法则，后验概率P(O|V)正比于似然函数P(V|O)和先验概率P(O)，

$P(O|V)\propto P(V|O)P(O)$ (1.6)

基于能量的方法是通过最小化能量函数 $\varepsilon (O;V)$ ，由两部分组成。第一部分 $\varepsilon_{1} (O;V)$ 和目标O的影像V相关，第二部分 $\varepsilon_{2} (O)$ 代表物体的先验知识：

$\varepsilon (O;V)=\varepsilon_{1}(O;V)+\varepsilon_{2}(O)$ (1.7)

令：

$\varepsilon (O;V)=-logP(O|V)；$

$\varepsilon _{1}(O;V)=-logP(V|O)；$

$\varepsilon _{2}(O)=-logP(O)；$

则概率模型的方法和基于能量的方法就是等价的。前面的讨论中，我们虽然是通过一个完整的目标物体O进行举例，但即使在针对非完整的部分物体等派生情况下依然适用。

将贝叶斯法则和链式法则相结合，就能够实现对目标的外形进行完整建模、表示目标的不同层次的先验知识、使用不同的模型。

1.4.3 实用的医学影像识别、分割和语义理解算法

实用算法通常只是以上计算通用框架中的特例。其区别取决于以下两个方面：

计算框架的差异：取决于所做的独立假设，或所选的表示方式，实用算法有针对性的修改或简化框架。如，如果只关心单物体的检测，计算框架可简化为图1.3（b）。图1.3（c）展示的是MSL方法用于3D刚体目标检测的计算流程。图1.3（d）展示了完整的单目标分割流程，从刚体检测和识别，到参数形变分割，再到自由形状分割。图1.3（e）展示了处理多目标的框架，图示中，不同目标之间的条件依赖仅假设在刚体和低维度参数部分存在；因此各物体是独立被分析的。最后，联合自由形式分割对所有的目标形状一起进行。

图1.3 （a）医学影像识别、分割和语义分析的通用计算流程，基于从精到粗的表示，从简单到复杂的建模；
（b-e）一些特定情况的计算流程

条件概率的建模方式：性能优越的算法需要对条件概率进行有效的建模。对医学影像识别和检测，机器学习方法能够提炼影像中的解剖信息。1.5节中定义了解剖上下文的概念，并简要的介绍了多种机器学习方法如何对解剖信息进行建模。目标分割在目标检测之后。1.6节例举了经典的图像分割方法，基于其各自独特的目标表示方式，这些方法各自有各自的建模方式。纵观整本书，书中每个章节都会从它各自的建模方式，或从一个通用的理论视角、特定的应用场景，进行讨论。

1.5 使用机器学习方法进行医学影像识别

1.5.1 目标检测和上下文

考虑从三张图片中检测人眼的任务，如图1.4。图1.4（a）中目标杂乱排列，为检测其中的人眼，一种方法是从左到右从上到下，逐像素的检查人眼的位置。但是，为检测图1.4（c）中完整人脸中的眼睛，是可以通过结合图像人脸的结构信息，以更高效的方式实现的。医学影像就是一种富含解剖结构信息的图像，这种信息被称为解剖上下文（Anatomical Context）。为检测图1.4（b）中的眼睛两眼之间的相对关系可以利用起来。换句话说，左眼一旦被检测了，右眼的检测会变得更简单。

上下文信息可被粗略的氛围三种类型，分别叫做单一的/局部的、成对的/高阶的、整体的\全局的。