CE-Net论文笔记

本博文是《CE-Net: Context Encoder Network for 2D Medical Image Segmentation》一文的阅读笔记,博文中图片来自该论文。
在阅读这篇博文之前,建议先了解FCN和U-Net
(参考《Fully Convolutional Networks for Semantic Segmentation》、《U-Net: Convolutional Networks for Biomedical Image Segmentation》)
一、这篇文章的核心思想
下面这张图。图1
在这篇文章里,作者团队仿照U-Net里的编码器-解码器结构(Encoder-Deconder architecture),建立了如下图的结构。如在图中可以看到的三个部分:特征编码器(Feature Encoder)、上下文提取器(Context Extractor)、特征解码器(Feature Decoder)。
本文的最大创新点是这个上下文提取器。
为什么要加这么一个结构呢?我们先要看看编码器-解码器结构解决了什么问题。从直觉上说,在中间层使用的特征映射(feature map)所具有的分辨率(resolution)越高,最后的输出结果得到的图像细节就越多。但是,中间层分辨率的提高会增加优化(optimization)的难度。所以网络的构建者往往要面临抉择:加速优化(accelerating the training)还是保持高分辨率(maintaining the high-resolution)?
编码器-解码器结构应运而生。在编码器部分,通过连续的降采样(downsampling)降低中间层的分辨率,使得网络的训练难度降低。而在解码器部分,通过连续的上采样(upsampling)恢复图像的尺寸,使图像能有较高分辨率。
在网络的构建中还有一对矛盾:深的网络能提取到许多高层信息(high-level features),这可以增加语义预测的准确性,但深的网络往往意味着空间尺度上的退化(卷积往往会使输出小于输入尺寸),由上面的讨论可以知道,这不利于保留图像细节。所以,网络的构建者还面临语义(segmentation)还是空间信息(spatial information)的抉择。
“小孩子才做选则,我都要。”无数网络的改进者就是想让语义预测的准确性和图像细节都能表现的令人满意。所以有了上下文提取器。
二、上下文提取器
上下文提取器的作用就是从编码器的输出中进一步提取高层信息,同时保留尽可能多的空间信息。所以我们关注的就是:它怎么提取和怎么保留。其由两个部分组成:DAC block 和RMP block。前者卷积,后者池化。各自都有创新的地方。
DAC block 的创新点主要由两个方面:一是空洞卷积(atrous convolution),二是并行结构。
空洞卷积是个什么鬼呢?看图,就是一个普通的卷积核(filter),如左图,给它分散开,然后其他地方补零,得到中图或右图的新卷积核。然后拿这个新卷积核去做卷积就可以了。这种方式有利于扩大感受域。而且和用池化方式抓取特征信息相比能保留更多语义信息。 在这里插入图片描述
其次就是并行结构:并行结构就是用来解决语义预测的准确性和图像细节的冲突的。结构深、感受野(reception field)大,有利于提高语义预测的准确性。而结构浅可以保留更多空间信息。从图中可以看到,从输入到输出有五条路径,最简单的一路是直接将输入拿到输出(中路)。最复杂一路,是四次卷积,感受域达到了19。DAC block通过这种方式提取有不同侧重点的特征,每个分支在尺寸大小、保留的空间信息的多少、特征的层次高低上各不相同。在这里插入图片描述
RMP block的创新点也是两个:一是不同尺寸的池化核(pooling kernel)、二还是结构。
为什么要用不同尺寸的核呢?在医学图像预测中,同一类对象的大小差异有时候是很大的,比如前期和中晚期的肿瘤图像。用不同视野大小(field-of-view)的核可以检测到不同尺寸的同类对象。
结构如下图,把池化后的输出用11conv层处理后得到通道数(channel)为1的不同大小的四张特征图,然后用双线性插值(bilinear)方法将这四张图扩展到1414的大小。原输入也拿过来和处理完的四张图“摞”在一起,得到输出。这样也是保证了空间信息和语义信息兼顾。 在这里插入图片描述
三、特征编码器这里的特征编码器也在U-Net基础上有所创新(不过不是本文的工作)。它改自一个叫ResNet-34的网络。将这个网络去掉平均池化层(average pooling layer)和全连接层(fully connected layers)之后就得到了CE-Net的特征编码器。其特点是shortcut mechamism,就是“截短道”,这种方法可以避免梯度爆炸(exploding)和消失(vanishing)。
四、这个结构的其他细节
使用了跨层连接(skip-connection),解码器使用了反卷积(deconvolution),不过不是新闻了。
五、实验过程
实验涉及的组织部位可谓非常丰富,毕竟该模型的一个优点就是应用广泛(就医学图像识别领域而言)。比较新鲜的是模型简化测试(Ablation Study)(可能我读书少才觉得新鲜)。作者团队将pretrained ResNet model(用于编码器)、DAC block、RMP block依次去掉,比较性能,来证明这些结构优化确实有效。最后还有“Ablation study for network with similar complexity”。由于通常模型性能的提高是因为网络变得更深(而不是结构上的优化),如果不能证明结构优化的贡献,你说自己“outperforms the state-of-the-art”,可能就是用了更深的网络降维打击,没啥牛的。所以在实验最后,特意与复杂程度类似的Backbone-Inception-ResNet-block作比较,说明我的结构优化确实是起了作用的。
六、其他
这篇文章在引言(Introduction)中非常详细的回顾了医学图像识别的历史,相当于铺出一条新手学习医学识别的道路…这不太多见(吐槽)。

第一次写有关图像识别的文章,水平有限,如有不妥之处望大家指正。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值