用MNIST数据集进行基于深度学习的可变形图像配准的验证实验-CSDN博客

本文链接：https://blog.csdn.net/u011984148/article/details/108426704

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Sarath Chandra

编译：ronghuaiyang

导读

用MNIST数据集做了一个简单图像配准方案的验证，效果不错。

Deep-learning-based 2D Deformable Image Registration with MNIST

Sarath Chandra

https://medium.com/@sarathchandra.knv31/deep-learning-based-2d-deformable-image-registration-with-mnist-2db3b6ee1426

我被Google Summer of Code 2020录取，进行基于深度学习的图像配准的研究工作。我的项目链接 —— MRI Registration using Deep Learning and Implementation of Thin-Plate Splines

在正式编码阶段开始之前，我利用MNIST数据集开发了基于深度学习的可变形图像配准的概念证明，灵感来自这些论文：

An Unsupervised Learning Model for Deformable Medical Image Registration
Non-rigid image registration using fully convolutional networks with deep self-supervision
End-to-End Unsupervised Deformable Image Registration with a Convolutional Neural Network

什么是图像配准？

图像配准是找到将一幅图像对齐到另一幅图像的转换的过程。通常，这个过程的输入是两幅图像：一个参考图像，也称为静态图像，和一个将与静态图像对齐的移动图像。这里的目标是对移动图像进行扭曲以匹配到静态图像。

如何对图像进行扭曲？

给定一个移动图像和静态图像作为输入，卷积编码器-解码器网络计算两个图像之间的像素变形。这个变形场也称为配准场，给出了运动图像中新的采样位置。通过对这些位置的运动图像进行采样，得到变换后的图像。简单地说，我们只是重新安排移动图像中的像素，直到它尽可能地与静态图像匹配。框架如下图所示。

通过对编解码器网络进行训练，输出一个dense的变形场，该变形场被采样器用来使运动图像与静止图像相匹配。

采样点不一定映射到移动图像中的整数位置。所以当点是分数时需要一些插值技术。此外，为了使整个框架是端到端可训练的，采样块也需要是可微的。可以使用“Spatial transformer networks”。

正如“Spatial transformer networks”中描述的，我使用了双线性插值，它是可微的，可以写成纯张量流函数。在双线性插值中，分数位置上的值是四个最近整数位置上的值的加权和。

通过优化变换后的图像和静态图像之间的相似性度量来训练网络。一旦训练完成，网络可以一次性预测最优配准域，这与传统算法不同，传统算法需要对每一对新配准进行数值优化，因此需要更长的时间。

训练网络

MNIST数据集经过筛选，只保留一类图像，而静态图像是从筛选数据集的测试集中随机选择的。网络使用相似度度量进行训练，这是衡量两幅图像的相似/不相似程度的指标。一些度量的例子包括均方误差(MSE)和归一化交叉相关(NCC)。由于交叉相关损失对强度变化具有鲁棒性，所以使用了交叉相关损失。它就是两个归一化的图像的点积。数学上是：