RadioTransformer：用于视觉注意力引导疾病分类的级联全局焦点Transformer

托比-马奎尔

已于 2024-05-07 18:48:20 修改

阅读量1.2k

点赞数 16

分类专栏：医学图像处理 Transformer变形文章标签： transformer 深度学习人工智能

于 2024-04-25 21:19:58 首次发布

本文链接：https://blog.csdn.net/qq_47896523/article/details/138119727

版权

利用放射科医生的注视模式并模拟他们的视觉认知行为，以在胸部X光片上进行疾病诊断。

放射科医生等领域专家依靠视觉信息来解释医学图像。

另一方面，视觉解释有挑战性，但是视线跟踪已被用来捕获领域专家的观看行为，从而深入了解视觉搜索的复杂性。但即使是那些依赖注意力机制的框架，也不会利用这种丰富的领域信息来进行诊断。

RadioTransformer通过学习放射科医生的视觉搜索模式，在级联的全局焦点Transformer框架中被编码为“人类视觉注意区域”。整体图像特征和更详细的局部特征分别由所提出的全局和焦点模块捕获。

级联（Cascade）指多个对象之间的映射关系

介绍

医学图像解释和相关诊断很大程度上依赖于领域专家研究图像的方式。放射科医生在多年的不同领域的医学图像培训中磨练了他们的图像搜索技能。当前的诊断和预后模型仅限于图像内容语义，例如疾病位置、注释和严重程度，并没有考虑到这些丰富的辅助领域知识。他们主要通过手工制作的描述符或深度架构来学习疾病的纹理和空间特征。图像内疾病模式的空间依赖性通常由专家读者隐式解释，仅通过图像特征表示学习可能无法充分捕获。

放射科医生在胸部X光片上的视觉搜索模式首先用于训练 全局焦点教师网络，称为人类视觉注意力训练（HVAT）。这个预先训练的教师网络教导 全局焦点 学生网络使用一种新颖的视觉注意力损失来学习视觉注意力。学生-教师网络的实施是为了明确整合放射科医生的视觉注意力，以改善胸部X光片的疾病分类。

学生-教师网络的核心思想是首先用监督方法或者无监督方法训练一个大规模的深层教师模型，然后让小规模的浅层学生模型去模仿教师模型的行为，最终使用学生模型完成部署和应用。

利用Transformer的架构和放射扫描的注意力来提供更好的诊断，因为模型学习跨图像块的自注意力及确定诊断相关的感兴趣区域。尽管这些方法集成了远程特征依赖性并学习高级表示，但他们缺乏先验领域知识，这些知识从根本上来讲，植根于疾病病理生理学及其在图像上的表现。目前尚不清楚如何有效和高效地使用此类搜索模式来提高模型的决策能力。

为了解决这个问题，建议利用领域专家的系统观察模式作为潜在注意力和intention的基础，引导深度学习网络改进疾病诊断。

简单过程

医学图像判读是一个复杂的过程，广泛地包括全局焦点方法。

①从全局角度识别可疑区域；②从焦点角度识别特定异常。

在全局筛查过程中，放射科医生扫描粗略的低对比度特征，其中分析某些纹理属性并识别潜在的异常感兴趣区域。在焦点过程中，重新检查异常区域以确定疾病的严重程度、类型或拒绝异常的假设。

例如，在分析 COVID-19 的胸部 X 光片时，放射科医生会快速浏览胸部区域，根据强度变化识别可疑区域。这有助于通过消除“明显健康”的区域来进行选择性识别。

焦点特征学习过程涉及对可疑区域进行更严格的分析，以了解特定区域及其周围环境的结构和形态特征。这个过程通常涉及特定领域的特征，例如渗透物的分布和流体的积累。

我们以此为动机设计 RadioTransformer，这是一种全局焦点Transformer，它将放射科医生的视觉认知与基于自我注意的变压器学习相结合。

从而导致注意力特征的概率得分与基于人类视觉注意力的诊断高度相关。

工作目标

以认知感知的方式通过特定领域的专家观看模式增强疾病诊断环境中深度网络的学习能力

主要贡献

1.提出了一种基于学生---教师的新型全局焦点RadioTransformer架构，由具有移动窗口的Transformer块组成，从而利用放射科医生的视觉注意力来提高诊断准确性。全局模块学习高级粗略表示，焦点模块学习具有双向横向连接的低级粒度表示，通过平滑移动平均训练解决语义注意力差距。

2.提出了一种新颖的视觉注意损失（VAL），用教师网络的视觉注意力区域来训练学生网络。这种损失教会学生网络使用 注意力区域重叠 以及 中心点和边界点回归 的加权组合来关注教师网络生成的视觉注意力区域。

相关工作

放射学中的眼睛注视跟踪

放射学领域进行了眼动追踪研究，从而深入了解视觉诊断过程。专家的视觉搜索模式已经在各种疾病中进行了研究，以了解它们与放射科医生的诊断表现的关系。诊断解释中的临床错误通常归因于读者疲劳和紧张，这已通过眼动追踪研究得到广泛验证。

观看图像时认知和感知模式的变化可能会导致不同专家对同一图像有不同的解释。有研究显示专家的眼睛位置作为视觉辅助，以提高新手读者的诊断能力。诊断决策对视觉搜索模式的依赖提供了将这种丰富的辅助域信息集成到计算机辅助诊断系统中的独特机会。

视觉注意力驱动的学习

在图像解释的背景下，视觉注意力：将观察者的注意力引导到图像中特定区域的认知操作。

我们将视觉注意力表示为通过跟踪用户眼球运动构建的显著性图。

眼睛注视 已被用于多项计算机视觉研究中，用于头部姿势估计、人机交互、驾驶员警惕性监控。人眼倾向于关注视觉特征，例如角落、亮度、视觉起始点、动态时间、颜色、强度和方向。因此，一般来说，图像感知与观察者的视觉注意力紧密相关。

涉及注视分析的方法：用于诸如对象检测、图像分割、对象引用、动作识别和动作本地化。

尽管有证据表明专家注视模式在改善图像解释方面的重要性，但它们在放射学中机器学习驱动的疾病分类中的作用仍在探索中。放射学图像的解释需要专门的观看模式，与其他任务中更一般的视觉注意力不同。

确认病变是否癌性：

①检测病变的存在；②识别病变是否为病理性；③确定类型；④提供诊断。

利用放射科医生的视觉注意力知识来训练基于Transformer的模型，从而改进胸部X光片的疾病分类。

胸部X光片上的疾病分类

尽管基于 CNN 的方法通过通用特征提取策略取得了巨大成功，但这些架构往往无

最低0.47元/天解锁文章

托比-马奎尔

关注

16
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
RadioTransformer：用于视觉注意力引导疾病分类的级联全局焦点Transformer

医学图像解释和相关诊断很大程度上依赖于领域专家研究图像的方式。放射科医生在多年的不同领域的医学图像培训中磨练了他们的图像搜索技能。当前的诊断和预后模型仅限于图像内容语义，例如疾病位置、注释和严重程度，并没有考虑到这些丰富的辅助领域知识。他们主要通过手工制作的描述符或深度架构来学习疾病的纹理和空间特征。图像内疾病模式的空间依赖性通常由专家读者隐式解释，仅通过图像特征表示学习可能无法充分捕获。放射科医生在胸部X光片上的视觉搜索模式首先用于训练全局焦点教师网络，称为人类视觉注意力训练HVAT。
复制链接

扫一扫

专栏目录