点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”
作者:Sarath Chandra
编译:ronghuaiyang
导读
用MNIST数据集做了一个简单图像配准方案的验证,效果不错。
Deep-learning-based 2D Deformable Image Registration with MNIST
Sarath Chandra
https://medium.com/@sarathchandra.knv31/deep-learning-based-2d-deformable-image-registration-with-mnist-2db3b6ee1426
我被Google Summer of Code 2020录取,进行基于深度学习的图像配准的研究工作。我的项目链接 —— MRI Registration using Deep Learning and Implementation of Thin-Plate Splines
在正式编码阶段开始之前,我利用MNIST数据集开发了基于深度学习的可变形图像配准的概念证明,灵感来自这些论文:
An Unsupervised Learning Model for Deformable Medical Image Registration
Non-rigid image registration using fully convolutional networks with deep self-supervision
End-to-End Unsupervised Deformable Image Registration with a Convolutional Neural Network
什么是图像配准?
图像配准是找到将一幅图像对齐到另一幅图像的转换的过程。通常,这个过程的输入是两幅图像:一个参考图像,也称为静态图像,和一个将与静态图像对齐的移动图像。这里的目标是对移动图像进行扭曲以匹配到静态图像。
如何对图像进行扭曲?
给定一个移动图像和静态图像作为输入,卷积编码器-解码器网络计算两个图像之间的像素变形。这个变形场也称为配准场,给出了运动图像中新的采样位置。通过对这些位置的运动图像进行采样,得到变换后的图像。简单地说,我们只是重新安排移动图像中的像素,直到它尽可能地与静态图像匹配。框架如下图所示。
通过对编解码器网络进行训练,输出一个dense的变形场,该变形场被采样器用来使运动图像与静止图像相匹配。
采样点不一定映射到移动图像中的整数位置。所以当点是分数时需要一些插值技术。此外,为了使整个框架是端到端可训练的,采样块也需要是可微的。可以使用“Spatial transformer networks”。
正如“Spatial transformer networks”中描述的,我使用了双线性插值,它是可微的,可以写成纯张量流函数。在双线性插值中,分数位置上的值是四个最近整数位置上的值的加权和。
通过优化变换后的图像和静态图像之间的相似性度量来训练网络。一旦训练完成,网络可以一次性预测最优配准域,这与传统算法不同,传统算法需要对每一对新配准进行数值优化,因此需要更长的时间。
训练网络
MNIST数据集经过筛选,只保留一类图像,而静态图像是从筛选数据集的测试集中随机选择的。网络使用相似度度量进行训练,这是衡量两幅图像的相似/不相似程度的指标。一些度量的例子包括均方误差(MSE)和归一化交叉相关(NCC)。由于交叉相关损失对强度变化具有鲁棒性,所以使用了交叉相关损失。它就是两个归一化的图像的点积。数学上是:
S和M分别代表静态图像和运动图像。下标mean和std分别表示图像的均值和标准差。对图像中所有像素求和。该训练在Tesla K80 GPU上大约需要5分钟,在CPU (i5-8250U)上大约需要10分钟。
采样输出
—END—
英文原文:https://medium.com/@sarathchandra.knv31/deep-learning-based-2d-deformable-image-registration-with-mnist-2db3b6ee1426
请长按或扫描二维码关注本公众号
喜欢的话,请给我个好看吧!