5.10.6 用于乳腺癌超声图像分类的Vision Transformer

最新推荐文章于 2024-09-22 18:18:31 发布

托比-马奎尔

最新推荐文章于 2024-09-22 18:18:31 发布

阅读量664

点赞数 18

分类专栏：深度学习基础知识文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47896523/article/details/138760015

版权

深度学习基础知识专栏收录该内容

20 篇文章 0 订阅

订阅专栏

医学超声（US）成像由于其易用性、低成本和安全性已成为乳腺癌成像的主要方式。卷积神经网络（CNN）有限的局部感受野限制了他们学习全局上下文信息的能力。利用 ViT 对使用不同增强策略的乳房 US 图像进行分类。

卷积神经网络（CNN）已成为自动医学图像分析应用（例如图像分类）中最常见的网络。然而，由于其局部感受野，这些模型在学习长距离信息方面表现不佳，限制了它们执行视觉任务的能力。

用于图像分类应用的 Vision Transformer (ViT) 架构。这些模型中的整体训练过程基于将输入图像分割为补丁并将每个嵌入的补丁视为 NLP 中的单词。这些模型使用自注意力模块来学习这些嵌入补丁之间的关系。

为了处理图像数据，某些深度学习模型（特别是基于Transformer的模型）会首先将输入图像分割成一系列较小的、重叠或非重叠的图像块（patches）。这些图像块可以被视为图像的局部区域或特征。然后，每个图像块都会通过一个嵌入层（embedding layer）或类似的转换函数，将其转换成一个固定维度的向量表示。这个向量表示就称为嵌入的补丁。

2. 相关工作

2.1 基于CNN的分类网络

ViT模型不像CNNs那样具有一些内置的归纳偏置，如平移等价性。这可能使得ViT模型在某些任务上更加灵活和通用。

归纳偏置（Inductive Biases）：模型在训练数据前就已经具备的一些先验知识或假设。

平移等价性（Translation Equivalence）：这是指无论图像中的某个特征出现在什么位置，CNN都能有效地识别和提取该特征。这是因为CNNs中的卷积操作是局部和权重共享的，使得模型对图像中的平移变换具有不变性。

2.2 Vision Transformer

Vision Transformer 在大规模训练数据集上进行训练时，在图像分类应用中表现出优于 SOTA CNN 的性能。

3. 方法

3.1 数据集和评价指标

第一个数据集其中包含从 600 名女性收集的 780 张乳房 US 图像（称为 BUSI），平均图像大小为 500 x 500 像素。该数据集包含 133 个正常图像、437 个恶性肿块和 210 个良性肿瘤。

第二个数据集被视为数据集 B，包括 163 个图像，平均大小为 760 x 570 像素，分为两类：110 个良性肿块和 53 个癌肿块。

3.2 VIT 架构

输入图像在 ViT 模型中被分割成多个补丁。一系列一维补丁嵌入被馈送到 Transformer 编码器，其中自注意力模块用于计算每个隐藏层输出的基于关系的加权和。因此，该策略允许 Transformer 学习输入图像中的全局依赖性。

3.3 模型

模型中，Ti、S、B 是微型、小型和基础模型的表示。

3.4 微调细节

将所有数据集分别分成 85% 和 15% 用于训练和测试。所有实验都是在固定的训练和测试数据集上进行的，以进行比较。

输出层通过具有 softmax 激活函数的分类器进行更改。使用的优化器是 Adam，模型训练了 30 个 epoch。

托比-马奎尔

关注

18
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。