Deep Learning Based Registration文章阅读(四)《End-to-end multimodal image registration via reinforcement 》

Deep Learning Based Registration文章阅读(四)

这次的文章是MIA上的一篇文章《End-to-end multimodal image registration via reinforcement learning》,与之前DL based registration不同,这篇文章是通过强化学习来解决配准问题,不过目前只能解决仿射变换。因为强化学习是通过当前的评价函数来决策下一步的action,对于deformable的配准自由度很大,下一步的决策空间比较大,而仿射变化的自由度只有6个 (2D),所以下一步的决策空间比较小,可能比较适合通过强化学习这种”一步一步“逼近正确解的方式来解决。仿射变换矩阵如下图:包括缩放s,旋转 θ \theta θ,平移t
在这里插入图片描述

Motivation

1、之前的多模态配准方法,不管是在传统方法领域还是深度学习领域,基本是基于设计适合的多模态相似度度量,结合适合多模态的feature map提取(利用GAN网络来把一个模态的数据转成另一个模态,从而解单模态问题;利用Encoder来将多模态的图像,映射到一个公共的特征空间中,从而消除不同模态indensit分布的影响)来进行。但是这在不同模态间去选择custom-designed的相似度度量或者feature extractor通常没办法通用到所有模态。
笔者认为现在这个说法不成立了,因为现在不管是在多模态相似度度量还是feature extractor方面都是又learning-based的方法,所以笔者感觉这篇文章最大的贡献还是提出了一个基于RL的比较好用的仿射配准框架。
2、这篇文章的目的是提出一个RL的框架来实现仿射变换,主要贡献在于:
(1) 提出了一个新颖的RL框架来做多模态图像配准(仿射配准),并且使用的conv-LSTM来表征时空特征。在进入conv-LSTM之前有一个CNN来做特征提取,这个CNN不用预训练,而是从头训练。
(2) 使用landmark error来做奖励函数可以有好的收敛,相比于其他的奖励函数,笔者认为在配准中使用landmark error来评估决策,可能是一个比较自然的想法,因为在其他很多文章中,landmark error被用来当作评估指标。
(3) A3C策略来减轻训练负担,包括memory的使用和训练时间。
(4) 针对测试阶段可能出现的抖动问题以及预想的停止状态没有达到的问题,使用Monte Carlo rollout策略来提高配准精度,笔者的理解就是随机几次取平均值,避免某一次效果很差或者fail。
3、这篇文章处理多模态的方式笔者认为主要靠进入conv-LSTM前的CNN。

RL

因为笔者之前对强化学习了解很少,所以这里单列一节来学习下强化学习。
强化学习可以理解为一个决策过程,即下一步的动作取决于当前的状态以及奖励函数,本质应该是一个试错过程,通过在下一步动作的有限的可行空间中不断尝试,找到奖励函数最大的动作作为下一步的动作。通常这样的学习过程是不稳定的,为了解决这个问题,一些方法通过把决策过程中的中间数据保存下来,但是这样就引入了两个缺点:(1)memory和计算负担比较重(2)从中间结果决策的时候,这些数据是来源于之前策略产生,可能已经“过时”了。A3C用来解决这两个问题。

Framework

在这里插入图片描述

在这里插入图片描述
框架比较好理解:在经过一个CNN之后输入到convLSTM中,输出是8个决策动作的概率以及当前状态的一个评价值V,来评估当前配准效果。

Loss

在这里插入图片描述
loss的话就是最大化一个期望值,应该就是每一个决策过程取到的概率 × \times ×取这个决策过程的累计奖励。

Results

在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习在语义道路场景的多模态融合中的探索是一项研究任务,目的是通过结合多种视觉和感知模态的信息,提升对道路场景的语义理解能力。 在这个任务中,我们使用深度学习的方法来处理不同模态的数据,如图像、激光雷达和 GPS 等。我们首先将这些模态的数据进行预处理,将其转换为神经网络可以处理的格式。然后,我们构建深度神经网络模型,用于将这些模态的信息进行融合。这种融合可以是级联式的,也可以是并行式的,即同时处理多个模态,以充分利用不同模态数据之间的相关性。 在模型的训练过程中,我们使用大量的标注数据,将不同模态数据与其对应的语义标签进行匹配。通过反向传播算法,我们可以优化模型参数,使其能够准确地预测道路场景的语义信息。 深度学习的多模态融合方法在语义道路场景中有广泛的应用。通过结合不同模态的信息,我们可以更好地理解道路场景中的障碍物、车辆、行人等不同元素。这种融合方法还可以提高对不同道路环境的适应性,使得我们的模型在城市、乡村等不同场景中都能够有效地工作。 总之,深度学习的多模态融合方法对于道路场景的语义理解具有重要意义。通过结合多种视觉和感知模态的信息,我们可以提高对道路场景的认知能力,为自动驾驶、智能交通等领域的发展提供有力支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值