MedViT:一种用于广义医学图像分类的鲁棒Vision Transformer

MedViT: A Robust Vision Transformer for Generalized Medical Image Classification

摘要

卷积神经网络(cnn)在现有医疗系统的自动疾病诊断方面取得了进步。然而,由于不准确的诊断可能会导致安全领域的灾难性后果,因此仍然存在对深度医疗诊断系统抵御对抗性攻击潜在威胁的可靠性的担忧。
本文方法

  1. 提出了一个高度鲁棒且高效的CNN-Transformer混合模型,该模型具有cnn的局域性以及视觉transformer的全局连通性。
  2. 为了缓解自注意机制在共同关注不同表示子空间信息时的高二次复杂度,我们采用高效的卷积运算来构建自注意机制
  3. 为了减轻Transformer模型对对抗性攻击的脆弱性,我们尝试学习更平滑的决策边界。为此,我们通过在小批量中排列特征均值和方差来增强图像在高级特征空间中的形状信息。
    代码地址
    在这里插入图片描述
    MedViTs与基线ResNets在所有2D数据集的平均acc参数和平均auc参数权衡方面的比较

本文方法

在这里插入图片描述
MedViT由一个补丁嵌入层、Transformer块和每一阶段的一系列叠加卷积组成,遵循传统的分层金字塔架构。
空间分辨率将以[4x, 2x, 2x, 2x]的比例以32x的比例逐渐降低,而通道尺寸将在每一阶段经过卷积块后增加一倍。
嵌入多尺度上下文的核心块,并分别开发健壮的LTB和ECB,以有效地捕获输入数据中的长期和短期依赖关系
LTB还执行局部和全局特征的融合,从而增强建模能力。并对卷积块与变压器块的技术集成进行了研究。
最后,为了进一步提高性能和对抗鲁棒性,我们提出了一种新的Patch Momentum Changer (PMC)数据增强技术来训练我们的模型。

在这里插入图片描述

Locally Feed-Forward Network

在这里插入图片描述
将图像特征映射转换回标记序列,然后将其转换为融合的标记,供下一个自关注层使用。
最好去看代码,模型比较简单

实验

医学图像分类实验是在MedMNIST数据集上进行的,该数据集由12个标准化的数据集组成,这些数据集来自综合医学资源,涵盖了一系列医学图像代表的主要数据模式。为了做出公正客观的判断,我们遵循MedMNISTv2相同的训练设置,不做任何改变。

实验结果

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值