为什么U-Net在医学图像上表现优越?

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

     做图像分割方向的朋友,一定都用过U-Net,或者做分割方向研究的朋友们,也许都有过魔改U-Net的经历。作为2015年MICCAI上发表的一篇论文,U-Net目前在谷歌学术的引用是11487次,几乎做分割的人人都会引用。

654197cc95fc52ce1657ddbe37f4ba0a.png

     早期基于深度学习的图像分割以FCN为核心,旨在重点解决如何更好从卷积下采样中恢复丢掉的信息损失。后来逐渐形成了以U-Net为核心的这样一种编解码对称的U形结构。作为语义分割界迄今为止最重要的两个设计之一(另一个是空洞卷积),以U-Net为baseline的网络结构在分割界是真正意义上的“寡头”。目前基于U-Net结构的创新就层出不穷,比如说应用于3D图像的V-Net,嵌套U-Net结构的U-Net++等。

f6e4676ccbb77f46492f77489e710d13.png

     U-Net结构能够在分割界具有一统之势,最根本的还是其效果好,尤其是在医学图像领域。所以,做医学影像相关的深度学习应用时,一定都用过U-Net,而且最原始的U-Net一般都会有一个不错的baseline表现。2015年发表U-Net的MICCAI,是目前医学图像分析领域最顶级的国际会议,U-Net为什么在医学上效果这么好非常值得探讨一番。

     U-Net为什么在医学图像上表现这么好?原因是双向的,得分别从U-Net网络本身和医学图像特点上来回答这个问题。

U-Net结构分析

    目前通用的语义分割网络结构流程就是输入图像,下采样编码,然后上采样解码,最后输出一个分割结果。我们来看一下U-Net的结构,如下图所示:

84eb13a10ebaee7f6d2f1109b5225710.png

     乍一看很复杂,U形结构下貌似有很多细节问题。我们来把U-Net简化一下,如下图所示:

80b32c2d8e7c8e3b177b6ad27c82f797.png

从图中可以看到,简化之后的U-Net的关键点只有三条线:

  • 下采样编码

  • 上采样解码

  • 跳跃连接

     下采样进行信息浓缩和上采样进行像素恢复,这是其他分割网络都会有的部分,U-Net自然也不会跳出这个框架,可以看到,U-Net进行了4次的最大池化下采样,每一次采样后都使用了卷积进行信息提取得到特征图,然后再经过4次上采样恢复输入像素尺寸。但U-Net最关键的、也是最特色的部分在于图中红色虚线的Skip Connection。每一次下采样都会有一个跳跃连接与对应的上采样进行级联,这种不同尺度的特征融合对上采样恢复像素大有帮助,具体来说就是高层(浅层)下采样倍数小,特征图具备更加细致的图特征,底层(深层)下采样倍数大,信息经过大量浓缩,空间损失大,但有助于目标区域(分类)判断,当high level和low level的特征进行融合时,分割效果往往会非常好。从某种程度上讲,这种跳跃连接也可以视为一种Deep Supervision(参见系列第15篇)。

     所以U-Net本身的结构设计导致了其不光在医学图像上表现优越,在一般的自然图像上效果依然很好。

医学图像

    再来看医学图像。相较于普通的自然影像,医学图像都有什么特征呢?

f5835ac87a42636e60d1b2bd88abd1aa.png

自然图像-家居设施

ba2967c553682585d859c85825a0f454.png

医学图像-肝脏CT

     可以看到,相较于自然图像,医学图像内容和信息密度远远不如对方。所以总体而言,医学影像结构固定,语义信息较为简单。常见的医学影像类型,比如CT、MRI、超声、病理切片和OCT等等,大多数成像方式对单一的人体器官进行成像时得到的影像结构都会相对固定一些。比如说下图的血管内超声影像,其图像特点就是官腔(lumen)的位置相较于整幅图而言永远都处于中心位置。

b2a06c2512d0cf2315cde294158574cc.png

血管内超声图像(IVUS)

     第二个原因在于医学影像的小样本性。医学影像数据因其专业性和隐私性,相较于自然图像数据要难获取的多,所以,一般一个项目能用到的数据不过数百例,小样本是其典型特征。对于深度学习而言,小样本不能用大模型,因为容易过拟合,所以,网络结构复杂和参数量大的模型并不适合于医学影像。而原始U-Net的参数量为28M,这是一个非常轻量级的网络,即使数据量不够用,辅以相应的数据增强手段,一般都会有一个很好的适配性。

     所以,总的来说U-Net在医学图像上效果优越,是由U-Net网络结构和医学图像本身特征所决定的。U-Net的带有跳跃连接的编解码结构能够融合不同层级的特征,医学图像本身的固定化结构和小样本性,共同使得U-Net成为医学图像分割领域的最佳模型。下次碰到面试官问你这个问题,可不要还回答不上来哦。

参考资料:

Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

4f4a2e4da836cbcf97218a465a58a3e8.png

07c96f72af0c1391af8ddfe38cd95b22.png

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值