论文信息
题目:BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion
BSAFusion: 一种用于未对齐医学图像融合的双向逐步特征对齐网络
源码:https://github.com/sirl123/BSAFusion/
论文创新点
-
单阶段框架:本文提出了一种单阶段的多模态医学图像配准和融合框架,与传统的两阶段方法不同,该框架通过共享特征编码器,将配准和融合任务无缝集成在一起,有效减少了模型的复杂性。
-
模态差异无特征表示(MDF-FR):作者提出了一种模态差异无特征表示方法,通过为每个输入图像附加模态特征表示头(MFRH),整合全局图像特征,并将其注入其他模态图像的特征中,从而减少模态差异对特征对齐的影响,同时保留了不同模态间的互补信息。
-
双向逐步特征对齐(BSFA):基于两点间向量位移的路径独立性,作者提出了一种双向逐步特征对齐策略,通过前向和反向逐步预测变形场,解决了传统单步对齐方法中变形场预测范围大且不准确的问题,显著提高了特征对齐的准确性和效率。
-
多模态特征融合(MMFF):作者设计了一个多模态特征融合模块,通过应用预测的变形场对齐特征,并基于对齐特征构建融合图像,确保了融合结果的结构一致性和对比度,同时保留了源图像的边缘细节。
摘要
如果未对齐的多模态医学图像能够在一个统一的框架内通过单阶段方法同时对齐和融合,不仅可以实现双任务的相互促进,还能帮助减少模型的复杂性。然而,该模型的设计面临特征融合和对齐需求不兼容的挑战。为了解决这一挑战,作者提出了一种未对齐医学图像融合方法,称为双向逐步特征对齐与融合(BSFA-F)策略。为了减少模态差异对跨模态特征匹配的负面影响,作者将模态差异无特征表示(MDF-FR)方法融入BSFA-F中。MDF-FR利用模态特征表示头(MFRH)整合输入图像的全局信息。通过将当前图像的MFRH信息注入其他模态图像中,有效减少了模态差异对特征对齐的影响,同时保留了不同图像所携带的互补信息。在特征对齐方面,BSFA-F采用基于两点间向量位移路径独立性的双向逐步对齐变形场预测策略。该策略解决了单步对齐中变形场预测范围大且不准确的问题。最后,多模态特征融合块实现了对齐特征的融合。多个数据集的实验结果证明了作者方法的有效性。
关键词
多模态医学图像融合,未对齐图像融合,特征对齐,特征融合,变形场预测
III. 提出的方法
A. 概述
如图2所示,作者提出的方法由三个核心组件组成:MDF-FR、BSFA和MMFF。MDF-FR的目标是消除未对齐多模态医学图像对之间的模态差异。为了解决特征对齐和特征融合的冲突需求,作者在MDF-FR中为每个输入图像引入了一个MFRH。该机制通过将当前图像的MFRH注入其他模态图像的特征中,减少了模态差异对特征对齐的影响。BSFA预测未对齐图像特征之间的变形场,促进后续对齐。为了解决单向方法中大位移和难以预测变形场的挑战,BSFA采用基于两点间向量位移路径独立性的双向逐步对齐变形场预测策略。最后,MMFF通过应用预测的变形场对齐特征,并基于对齐特征构建融合图像。
B. 模态差异无特征表示
在MDF-FR中,作者使用由Restormer和Transformer层组成的网络作为编码器,从未对齐图像对中提取特征。Restormer的结构如图2所示。对于输入图像和,第一层Restormer输出的特征分别表示为和,其中、和分别表示特征图的通道数、高度和宽度。由于浅层特征和包含图像的基本细节,作者直接将其输入多模态特征融合层进行特征对齐和融合,以在融合结果中保留更多的边缘细节。第二层Restormer输出的特征随后输入两个Transformer层,提取用于模态差异消除和变形场预测的特征和。Transformer层的输出结果表示为和,以及模态特征表示头和,其中是第二层Restormer输出的特征被划分的总块数,是向量的长度。在作者的方法中,和用于描述输入图像的模态类别。为了确保和包含输入图像的模态信息,作者将其输入MLP,输出目标是最小化公式(1)中定义的交叉熵损失:
其中表示交叉熵,和表示MLP的预测结果。
由于和之间存在显著的模态差异,基于这些特征的跨模态匹配和变形场预测面临巨大挑战。为了解决这一问题,现有方法通常直接从和中提取共享模态特征进行变形场预测。尽管这种方法有效,但可能导致非共享或模态特定信息的丢失,从而降低特征的表达能力。相比之下,如果作者直接将相应的模态信息注入和,不仅可以缓解模态差异对变形场预测的影响,还可以防止提取共享信息导致的非共享信息丢失。通过最小化公式(1)损失获得的模态特征表示头,表示全局特征和,不受未对齐源图像的影响。因此,可以直接将其注入和,以减少两者之间的模态差异:
为了确保公式(2)处理的特征有效消除模态差异,作者使用两个Transfer块,即TransferA和TransferB。每个块由两个Transformer层组成,块之间的参数不共享,允许进一步提取用于预测变形场的特征和。此外,为了确定TransferA和TransferB输出的特征是否具有模态特异性,作者复制了编码器中的Transformer层和编码器后的MLP。然后依次将特征和通过Transformer层和MLP,分别识别特征和的模态类别。为此,作者使用公式(3)中的交叉熵损失函数更新TransferA和TransferB中的参数:
其中和是MLP对和模态类别的预测结果。在此过程中,作者引入TransferA和TransferB,进一步从和中提取有助于变形场预测的特征。处理后,作者直接重用Transformer层和MLP,确保用于变形场预测的特征和不再存在模态差异。
C. 特征对齐
向量位移的路径独立性:由于和在公式(3)的约束下已有效消除模态差异,因此适合使用和预测输入图像和特征之间的变形场。然而,当和之间的偏移较大时,直接预测它们之间的变形场变得具有挑战性。如图3所示,在像素对齐过程中,像素移动到像素的位置。这可以通过将像素和之间的变形场应用于来实现。像素和之间的变形场,包括从位置到位置的空间移动方向和距离,可以视为一个向量,表示为。从图3可以看出,和位置之间的对齐可以通过单步直接从位置移动到位置,或者通过中间点、和到达位置。
由于
这表明从点到点的变形场可以累积从到、到、到和到的变形场。这表明从点到点的向量与从点到点的路径无关。在本文中,作者将这一特性称为两点间向量位移的路径独立性。基于这一理论的变形场预测方法称为单向逐步预测方法。
由于目标是使点和在其空间位置上对齐,这可以通过同时将和向中间位置移动来实现。如图2所示,双向逐步对齐允许点通过点到达中间点,而点可以通过点在相反方向上到达,从而在点位置实现特征对齐。此时,像素移动到像素位置所使用的变形场可以表示为一个向量:
这种双向对齐方法有效捕捉了图像之间的相互关系,减少了累积误差。此外,如果一个方向的对齐遇到问题,另一个方向的对齐可以补偿,从而增强了整体对齐过程的鲁棒性。基于这些考虑,作者提出了双向逐步特征对齐方法。
双向逐步特征对齐:如图2所示,作者提出的BSFA从两个方向预测输入图像特征和的变形场。BSFA的前向和反向预测都涉及五层变形场预测操作,对应于在两个输入源图像之间插入五个中间节点,通过第五层实现其特征的空间对齐。在作者的方法中,负责预测前向和反向变形场的模块分别称为前向配准层(FRL)和反向配准层(RRL),如图2所示。对于初始FRL,其输入为和,输出为变形场和。这里,和表示和的重塑版本,初始化为,表示FRL和RRL的层数。第一个RRL的输入为和,输出包括变形场和,初始化为。在第个FRL和第个RRL中,其输入为和,其中
在公式(6)中,表示Warp操作,根据变形场调整像素的空间位置。符号“”表示上采样操作。
在通过两个方向的预测变形场校正输入图像特征和后,在中间位置实现了跨模态特征的对齐。然而,逐步对齐过程导致特征逐渐从其原始位置移动。直接融合中间对齐的特征不允许输入源图像有效引导融合过程,这可能会阻碍融合质量的提高。基于前文提到的两点间向量位移的路径独立性,作者可以构建一个变换,直接将源图像的特征与源图像的特征对齐,使用每个阶段的预测变形场。根据公式(5)中的原理,实现和特征对齐的变形场可以表示为:
D. 多模态特征融合
如图2所示,在获得后,作者将其与特征和,以及特征和一起发送到FusionBLK进行特征融合处理。作者首先将特征和转换为和,并将其发送到FusionBLK,其中是FusionBLK的数量。对于第个FusionBLK,其输入为、和,输出为:
其中表示由Restormers组成的编码器,当时,为零矩阵。最后一层的输出,即第个FusionBLK的输出,表示为。随后,作者将和与校正结果连接,并将连接结果发送到由Restormer、卷积层和Sigmoid激活函数组成的重构层,以获得融合图像。整个融合过程如图2中的“MMFF”所示,表示融合的步骤序列。
IV. 实验
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。