深度学习的问题
在使用传统的深度学习网络对病灶进行分割时,如,FCNN, U-Net, Dense U-Net等,网络均只考虑了本身图像上的信息,让网络本身通过大量的图像与label的对应关系,进行深度学习模型的训练。这一系列过程中没有任何人工的干预以及人为的先验信息。当数据量十分巨大时,这种做法往往能够取得非常好的分割效果,但当数据量相对较小时,如很多医学影像数据往往只有几十张精准标注的图像,引入医生本身的解剖学信息往往能够取得更好的分割效果。但问题的难点在于如何将医生的临床知识进行量化表示,并与深度学习的分割相结合。Zheng等人(Anatomically Constrained Deep Learning for Automating Dental CBCT Segmentation and Lesion Detection )在牙齿的CT图像上,在的Dense U-Net基础上,考虑引入了解剖学的知识——病灶部位附近不会有background,materials不会直接连接骨头。其具体方法以及训练过程下面进行详细阐述。
优化问题
在深度学习分割网络中,我们的优化的目标函数通常为如下形式:
( 1 / N ) ∑ ( x , y ) ∈ D l L ( y , p θ ( y ∣ x ) ) (1 / N) \sum_{(\mathbf{x}, \mathbf{y}) \in D_{l}} \mathcal{L}\left(\mathbf{y}, p_{\theta}(\mathbf{y} \mid \mathbf{x})\right) (1/N)(x,y)∈Dl∑L(y,pθ(y∣x))
其中 D l D_l Dl为训练集, p θ p_{\theta} pθ为深度学习模型, x \mathbf{x} x为原图, y \mathbf{y} y是原图对应的label,两者均为向量,向量的长度为图像像素点的个数。而文章在这里考虑了一个新的得分函数, f ( y ) f(y) f(y),得分越高表示越符合解剖学的先验知识。为了更好的适用于一组图像,这里考虑了平均意义下的得分函数,也就是对其添加了期望,期望是关于 p θ p_{\theta} pθ的条件分布下的。此时,目标优化问题变为了:
min θ { 1 N ∑ ( x , y ) ∈ D l L ( y , p θ ( y ∣ x ) ) − α 1 N ∑ x ∈ D l E p θ ( y ∣ x ) ( f ( y ) ) } \min _{\theta}\left\{ \frac{1}{N} \sum_{(\mathbf{x}, \mathbf{y}) \in D_{l}} \mathcal{L}\left(\mathbf{y}, p_{\theta}(\mathbf{y} \mid \mathbf{x})\right)- \alpha \frac{1}{N} \sum_{\mathbf{x} \in D_{l}} E_{p_{\theta}(\mathbf{y} \mid \mathbf{x})}(f(\mathbf{y})) \right\} θmin⎩⎨⎧N1(x,y)∈Dl∑L(y,pθ(y∣x))−αN1x∈Dl∑Epθ(y∣x)(f(y))⎭⎬⎫
这里的 α \alpha α为tuning parameter。但到这里会发现,上述的目标函数根本无法计算,原因是 p θ p_{\theta} pθ的维度过高,为像素点个数,因此对应的期望就无法进行求解。文章在这里考虑使用了变分推断的方法,用一个 q q q 函数来近似 p θ p_{\theta} pθ,根据标准的变分推断理论,只需使得两者之间的KL散度尽可能小,这里补充一下KL散度的定义:
- KL散度(Kullback-Leibler divergence,简称KLD),在讯息系统中称为相对熵(relative entropy),在连续时间序列中称为随机性(randomness),在统计模型推断中称为讯息增益(information gain)。也称讯息散度(information divergence)。
- KL散度是两个概率分布 P P P和 Q Q Q差别的非对称性的度量,其通常用来度量使用基于 Q Q Q的分布来编码服从 P P P的分布的样本所需的额外的平均比特数。典型情况下, P P P表示数据的真实分布, Q Q Q表示数据的理论分布、估计的模型分布、或 P P P的近似分布。
对于离散随机变量,其概率分布P 和 Q的KL散度可按下式定义为
D K L ( P ∥ Q ) = − ∑ i P ( i ) ln Q ( i ) P ( i ) . D_{\mathrm {KL} }(P\|Q)=-\sum _{i}P(i)\ln {\frac {Q(i)}{P(i)}}. DKL(P∥Q)=−i∑P(i)lnP(i)Q(i).
等价于
D K L ( P ∥ Q ) = ∑ i P ( i ) ln P ( i ) Q ( i ) D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\ln {\frac {P(i)}{Q(i)}} DKL(P∥Q)=i