自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(222)
  • 问答 (12)
  • 收藏
  • 关注

原创 6.13.6 Faster R-CNN

乳房x光检查是由人类读者评估的。阅读过程单调、累人、冗长、昂贵,最重要的是容易出错。尽管有现代,但漏诊癌症的问题仍然存在。据报道,筛查乳房x光检查的敏感性和特异性分别在77-87%和89-97%之间。这些指标描述了阅读者的平均表现,而个别医生的表现存在很大差异,报告的假阳性率在1-29%之间,敏感性在29 - 97%之间10-12。重复阅读被发现可以提高乳房x光检查的效果,并已在许多国家实施。多次读数可以进一步提高诊断性能,多达10个以上的读数,证明乳房x光检查评估在双重读数之外还有改进的空间。

2024-06-24 11:23:40 403

原创 6.13.1 使用残差神经网络堆叠集成进行乳腺肿块分类和诊断的综合框架

本研究中,实现了一个堆叠的 ResNet 模型集成,以将乳腺肿块分类为恶性或良性,并诊断其 BI-RADS 类别评估,评分范围为 2 到 6,形状为椭圆形、圆形、分叶状或不规则形。与单个架构和应用于现有基准数据集的其他方法相比,所提出方法的结果显示分类性能有所提高。在两个公共数据集上实现了最高的病理分类性能:CBIS-DDSM 的准确率为 95.13%,AUC 得分为 0.95,INbreast 的准确率为 99.20,AUC 得分为 0.99。

2024-06-13 22:26:25 866 1

原创 6.7.31 使用端到端训练的基于 EfficientNet 的卷积网络在双视图乳房 X 线摄影中进行乳腺癌诊断

提出了一种深度卷积网络,该网络同时考虑了乳房 X 线摄影同一侧的两个视图,该网络经过端到端训练,从而实现了三个迁移学习。首先,使用在自然图像上训练的 EfficientNet 的权重来训练补丁分类器其次,使用块分类器权重来训练单视图分类器第三,使用单视图分类器权重来训练双视图分类器使用 5 倍交叉验证,系统在对具有两个视图的 CBIS-DDSM 乳房 X 光照片进行分类时实现了 0.9344±0.0341 的 AUC(在 ROC 的等错误率点处,准确度、灵敏度和特异性为 85.13%)。

2024-06-12 22:41:43 748

原创 6.7.32 用于计算机辅助检测和诊断研究的精选乳房 X 线摄影数据集

计算机辅助检测 (CADe) 和诊断 (CADx) 系统旨在协助放射科医生对乳房 X 线摄影进行解释。CADe 用于发现乳房 X 线摄影中的异常结构,而 CADx 用于确定所发现异常的重要性。当前的 CADe 系统受到高假阳性率的限制,并且乳房 X 线摄影的 CADx 系统尚未获准用于临床。尽管乳房 X 线摄影中 CAD 的技术难度很大,但还有另一个障碍必须解决才能实现这项研究:决策支持系统评估。

2024-06-11 10:57:42 728

原创 6.7.29 基于卷积神经网络的乳腺良恶性图像分类

本研究提出了一种基于 mini-MIAS 训练的 CNN 形式的新型深度学习模型,用于对良性和恶性异常进行分类。为了增强图像特征并提高分类性能,提出了一种预处理算法,该算法使用一系列预处理方法,例如裁剪、GCN、局部直方图均衡化和平衡预处理。CNN 模型以原始图像的 ROI 作为输入,实现异常的特征学习和分类。为了满足乳腺图像的要求,提出了一种数据增强方法来改善数据稀缺性并防止过度拟合。进行了特定的实验以探索 CNN 层结构和内核或激活函数对分类性能的影响。

2024-06-10 17:55:56 637

原创 6.7.13 MV-Swin-T:使用多视图 SWIN 变压器进行乳房 X 光检查分类

传统的乳腺癌分类深度学习方法主要集中在单视图分析上。然而,在临床实践中,放射科医生会同时检查乳房 X 线摄影检查中的所有视图,利用这些视图中固有的相关性来有效检测肿瘤。在本文中,我们提出了一种完全基于 Transformer 的创新多视图网络,以解决乳房 X 线摄影图像分类中的挑战。我们的方法引入了一种,并促进了这些信息在空间特征图级别视图之间的连贯传输。

2024-06-09 17:13:00 1159

原创 6.7.12 使用 SWIN Transformer 通过热图像实现乳腺癌检测系统

乳腺癌是重大的公共卫生挑战,需要有效的诊断方法。虽然超声、乳房 X 线照相和 MRI 仍然至关重要,但它们在定期、短间隔大规模筛查中的实用性有限。热成像作为一种非侵入性且经济有效的选择,具有常规自我筛查的潜力。本研究利用基于自注意力的 Vision Transformer 设计代替传统的 CNN,探索了用于乳腺癌检测的各种 SWIN 变压器变体和增强策略。使用,将其划分为训练、测试和验证子集,比例为 70:15:15,获得的结果显示出巨大的前景。

2024-06-09 11:05:45 1063 1

原创 6.7.11 一种新的迁移学习方法可提高乳房 X 线摄影筛查中乳腺癌的诊断率

分割过程是涉及要分析图像的任何基于机器学习的工作中的一个有效阶段。在工作中,使用两个 CNN 预训练模型,即 ResNet-50 和 VGG16,用于从乳房 X 线摄影图像中获取属性。VGG16 充当二分类和多类乳房 X 线摄影图像的特征提取器。此过程是在适当调整 VGG16 模型后完成的。另一方面,ResNet-50 用于图像分类、对象检测和对象定位等功能。使用前面提到的模型开发的系统提供了 ResNet-50 的 96.49% 准确率和 VGG16 的 95.48% 准确率。

2024-06-08 22:07:57 742

原创 5.31.15 使用图像到图像转换和 YOLO 技术对先前的乳房 X 光检查结果中的异常进行早期检测和分类

乳腺癌最常见的症状是乳腺结构和组织外观的严重变化,还伴有乳腺肿瘤和细胞簇的快速形成。乳房 X 线检查是早期检测和诊断乳腺癌的有效医学影像工具之一,可降低早期乳腺癌的晚期和致死率。为了检查潜在病变(如肿块、钙化、结构扭曲),放射科医生依靠人类的视觉理解来检测和提取乳房 X 线照片中的所有诊断信息。然而,已证明大约 10% 到 30% 的癌症病例在筛查乳房 X 线照片中被漏掉,这会产生高达 50% 的假阴性率,具体取决于病变类型和乳腺密度 [6]。

2024-06-07 20:59:00 1332

原创 5.31.8 学习深度特征以实现判别定位

一种通用技术,称为类激活映射 (CAM),用于具有全局平均池化的 CNN。经过分类训练的 CNN 能够学习执行对象定位,而无需使用任何边界框注释。类激活图使我们能够可视化任何给定图像上的预测类别分数,突出显示 CNN 检测到的判别性对象部分。在 ILSVRC 基准上评估了我们在弱监督对象定位上的方法,证明了我们的全局平均池化 CNN 可以执行准确的对象定位。此外,证明了 CAM 定位技术可以推广到其他视觉识别任务,即我们的技术可以生成通用的可定位深度特征。

2024-06-06 21:02:34 1019

原创 5.23.3 乳腺癌成像中的深度学习:十年的进展和未来方向

乳腺癌已成为全球发病率最高的恶性肿瘤,预计2020年将有230万新发病例。尽管自1989年以来死亡率稳步下降,但乳腺癌仍然是全球癌症死亡的第五大原因,也是妇女癌症死亡的主要原因,在过去40年的大部分时间里,发病率不断上升,估计2020年将有68.5万人死亡[2], [3]。乳腺癌根据是否扩散可分为浸润性癌和原位癌,浸润性癌根据扩散程度又分为I、II、III、IV期四个阶段[4]。

2024-06-06 17:15:49 726

原创 5.31.1 数字乳房断层合成

基于筛查和诊断成像结果的改进,数字乳腺断层合成 (DBT) 正在成为乳腺成像的护理标准。从断层合成采集中获得的附加信息减少了重叠组织的混杂效应,从而改进了病变检测、表征和定位。此外,从重建的 DBT 数据集中获得的准三维信息可以比单独使用二维全视野数字乳房 X 线摄影进行更有效的成像处理。在此,作者回顾了 DBT 成像在筛查和诊断乳腺成像中的优势。数字乳房断层合成(DBT)设计跨弧线采集的多个投影,这些投影被重建为一系列堆叠图像。

2024-06-05 17:04:46 831

原创 SiT : Self-supervised vision Transformer

自监督预训练可以显著提高下游任务的性能 [1],[16]。在语音识别 [17] 和计算机视觉应用 [18]、[19]、[20]、[21] 中也观察到了类似的趋势。自监督预训练,特别是与 Transformer [22] 结合使用,是 NLP [1]、[16] 的首选模型。SSL 的成功是以海量数据集和大容量模型为代价的。视觉 Transformer 的预训练主要使用监督学习的超大规模数据集,例如由数亿个标记样本组成的数据集 [3]。

2024-06-03 17:28:04 820

原创 5.25.12 数字组织病理学的自我监督对比学习

机器学习任务中标记图像的数量与任务绩效呈正相关;然而,标记数据稀缺且昂贵。这一问题在医学图像分析任务中更加严重,因为医学图像分析任务通常需要专家注释。由于有关传播私人患者数据的规定,标记也必须在现场进行。在任何医学图像分析任务中,最费力和最耗时的步骤往往是标记数据,已经提出了几种方法来缓解这种数据注释瓶颈。研究发现,可以利用未标记数据的无监督和自监督方法,以及使用部分标记数据的半监督方法可以提高任务绩效。大多数自监督技术都依赖于自然场景图像属性,而这些属性不适用于组织病理学图像。

2024-06-02 18:00:18 651

原创 5.25.1 用于组织病理学图像分类的深度注意力特征学习

使用组织活检的显微镜组织病理学检查已广泛应用于癌症诊断,并在实践中被视为确诊金标准。诊断报告(包括分级和分期)通常由经验丰富的病理学家通过目视检查组织学样本完成。随着图像处理技术的最新进展,这种组织病理学分析的自动化变得越来越可能,从而帮助病理学家提高工作效率和客观性。作为一项基本任务,组织病理学图像的分类近年来备受关注。然而,由于组织病理学图像固有的复杂视觉模式,这种分类任务相当具有挑战性。早期的组织病理学图像分类研究主要依赖于从整个图像或分割块中提取的手工特征。

2024-05-31 20:58:47 763

原创 5.25.10 基于 Yolo 的乳房 X 光检查乳腺癌检测模型

旨在实现一种自动化数据驱动的乳房 X 线照片乳腺癌检测模型,以支持医生在乳腺癌筛查或检测计划中的决策过程。公开的 CBIS-DDSM 和 INbreast 数据集被用作在全视野数字乳房 X 线照片专有数据集上实现迁移学习技术的来源。专有数据集反映了一个真实的异构案例研究,包括 190 个肿块、46 个不对称和 71 个扭曲。比较了几种 Yolo 架构,包括 YoloV3、YoloV5 和 YoloV5-Transformer。

2024-05-30 11:45:59 729 2

原创 5.28.1 使用卷积神经网络检测乳腺癌

微钙化和肿块是乳腺癌的最早迹象,只能使用成像方式检测到。根据乳腺异常的侵袭阶段,异常可能是良性的或恶性的。与检测微钙化相比,检测乳房组织中的肿块更具挑战性。Organization 等人 (2006) 的研究表明,种族、地理位置和其他风险因素会决定乳腺癌的发展。在这项工作中,我们提出了基于卷积神经网络 (CNN) 的乳腺肿块检测方法,以同时定位肿块并将其分类为良性或恶性异常。为了训练、验证和测试该方法,我们从不同站点收集了数据集。

2024-05-29 18:03:42 1044

原创 5.25.6 深度学习在放射图像中检测和分类乳腺癌病变

有助于早期发现乳腺癌的三个重要预防措施是每月乳房自我检查、定期临床乳房检查和筛查乳房X光检查。高死亡率主要是由于缺乏癌症的早期发现。乳房X光检查还可能有助于确定高风险癌症因素,例如含有大量腺体组织的致密乳房。乳房X线照相过程被认为是耗时、乏味的,更重要的是它容易出现错误[4]。事实证明,CAD 系统在准确诊断医学图像方面效果良好,可用于乳房 X 光检查来解决这些问题。如果乳腺癌发现得早,而且肿瘤很小并且没有扩散,那么乳腺癌很容易成功治疗。定期筛查是早期乳腺癌发现的最佳方法之一。

2024-05-29 12:10:09 1095

原创 5.23.12 计算机视觉的 Inception 架构

分类性能的提升往往会转化为各种应用领域中显着的质量提升,深度卷积架构的架构改进可用于提高大多数其他计算机视觉任务的性能,这些任务越来越依赖于高质量的学习视觉特征。在 AlexNet 功能无法与手工设计、制作的解决方案竞争的情况下,网络质量的改进为卷积网络带来了新的应用领域。GoogleNet 使用了大约 700 万个参数,比其前身 AlexNet(使用 6000 万个参数)减少了 9 倍。此外,VGGNet 使用的参数比 AlexNet 多大约 3 倍。

2024-05-25 17:40:14 909

原创 5.23.9 TransUNet:Transformers 为医学图像分割提供强大的编码器

U-Net 由对称的编码器-解码器网络组成,具有跳跃连接以增强细节保留,已成为事实上的选择。基于这种方法,在广泛的医学应用中取得了巨大的成功,例如磁共振(MR)的心脏分割、计算机断层扫描(CT)的器官分割和息肉从结肠镜检查视频中分割。与之前基于 CNN 的方法不同,Transformers 不仅在建模全局上下文方面功能强大,而且在大规模预训练下也表现出了对下游任务的卓越可迁移性。

2024-05-24 20:51:48 797

原创 5.23.2 深度学习提高乳房 X 光检查中乳腺癌的检测率

开发了一种深度学习算法,该算法可以使用“端到端”训练方法在筛查乳房 X 光检查中准确检测出乳腺癌,该方法有效地利用了具有完整临床注释或仅具有整个图像的癌症 标签 的训练数据集。在这种方法中,仅在初始训练阶段才需要病变注释,后续阶段只需要图像级标签,从而消除了对很少可用的病变注释的依赖。与以前的方法相比,我们用于对筛查乳房 X 光检查进行分类的全卷积网络方法获得了出色的性能。作为图像分类任务,通过筛查性乳房X光检查检测亚临床乳腺癌具有挑战性,因为肿瘤本身仅占据整个乳房图像的一小部分。

2024-05-24 17:59:46 1055 1

原创 5.23.1 深度学习在乳腺癌成像中的应用

通常,乳房成像是使用数字乳房X线摄影(DM)、数字乳房断层合成(DBT)、超声(US)、磁共振成像(MRI)或上述的组合来进行。在 DM 中,X 射线穿过乳房并由数字 X 射线探测器收集,创建乳房的二维 (2D) 图像。然而,它存在组织叠加的问题。特别是在致密乳房(纤维腺体组织密度较高的乳房)中,纤维腺体组织掩盖病变的机会很高。在 DBT 中,从稍微不同的位置进行多次 X 射线扫描,从而产生与 DM 相比叠加效应减少的(部分)断层扫描图像。DBT 的一个缺点是其解释更加困难,导致阅读时间增加。

2024-05-23 22:15:58 1202

原创 5.14.10 使用 Swin Transformers 集合对组织病理学图像中的乳腺癌进行多类分类

乳腺癌 的非侵入性诊断程序涉及体检和成像技术,例如乳房 X 光检查、超声检查和磁共振成像 [3,4]。然而,体外检查可能无法及早发现它,并且影像学检查对于更全面地评估癌变区域和识别癌症亚型的敏感性较低[5,6]。通过乳腺活检进行的组织病理学成像,即使是微创的,也可以准确识别癌症亚型并精确定位病变[7]。CNN 表现出固有的归纳偏差,并且会随着图像中感兴趣对象的平移、旋转和位置而变化。因此,在训练 CNN 模型时通常会应用图像增强,尽管数据增强可能无法在训练集中提供预期的变化。

2024-05-21 20:35:38 926

原创 5.14.6 TransMed:Transformer推进多模态医学图像分类

TransMed 结合了 CNN 和 Transformer 的优点,可以有效地提取图像的低级特征并建立模态之间的远程依赖关系。我们在两个数据集(腮腺肿瘤分类和膝盖损伤分类)上评估了我们的模型。将 Transformer 应用于计算机视觉任务的方法。与文本相比,图像涉及更大的尺寸、噪声和冗余模态。人们提出了大量基于 Transformer 的方法,例如用于目标检测的 DETR [2]、用于语义分割的 SETR [3]、用于图像分类的 ViT [4] 和 DeiT [5]。

2024-05-21 14:12:04 1880 1

原创 5.14.5 不同 CNN 对超声图像乳腺肿瘤分类的比较

乳腺癌是女性最常见的癌症,癌症筛查是通过乳房超声 (BUS) 成像和乳房 X 光检查进行的。目前的问题是需要 依赖大型且带注释的BUS数据集进行CNN训练。缓解这个问题的一个可能的解决方案是利用迁移学习和微调。

2024-05-20 21:42:00 929

原创 5.14.3 UNETR:用于 3D 医学图像分割的 Transformers

具有收缩和扩展路径的全卷积神经网络 (FCNN) 在大多数医学图像分割应用中表现出了突出的作用。在 FCNN 中,编码器通过学习全局和局部特征以及上下文表示来发挥不可或缺的作用,这些特征和上下文表示可用于解码器的语义输出预测。在FCNN中,收缩路径通常用于捕获图像的上下文信息,并逐步减少空间维度;而扩展路径则用于恢复空间维度,使输出图像的尺寸与输入图像相近,并提供更精细的分割结果。FCNN中卷积层的局部性限制了学习远程空间远程依赖性的能力。

2024-05-20 19:48:57 1130

原创 5.14.2 使用 Transformer 进行无卷积医学图像分割

图像分割是医学图像分析的核心任务。它通常用于量化感兴趣的体积/器官的大小和形状、人口研究、疾病量化、治疗计划和计算机辅助干预。医学图像分割中的经典方法涵盖从区域生长[11]和可变形模型[36]到基于图集的方法[32]、贝叶斯方法[29]、图割[26]、聚类方法[12]等。目前工作的一个共同特征是使用卷积运算作为网络的主要构建块。所提出的网络架构在卷积运算的排列方式方面也有所不同。人们已经尝试使用循环网络和注意力机制进行医学图像分割。卷积运算的有效性归因于:①局部(稀疏)连接;②参数(权重)共享;

2024-05-20 12:06:59 841

原创 使用多实例学习进行乳腺癌组织病理学图像分类和定位

乳腺癌是女性最主要的死亡原因,病理学家根据病理切片中观察到的各种视觉特征(例如细胞核的形态特征、细胞核的微观和宏观结构等)做出决定。计算机辅助诊断(CAD)系统可以帮助病理学家自动做出决策。卷积神经网络是最广泛使用的深度学习框架,用于学习图像类别之间的复杂判别特征。多年来,VGG16 [3] 和 ResNet18 [4] 等各种 CNN 架构在海量 ImageNet 数据集上产生了出色的结果。CNN 被用于医学图像以产生最先进的结果。为图像中存在的所有类别提供了定位信息。

2024-05-16 21:26:15 1677

原创 5.14.1 使用超声图像进行乳房肿块数据增强和分类的深度学习方法

医学成像是诊断多种疾病和分析实验结果的重要工具。生物医学成像是整体癌症护理基础的一部分。数字乳腺X线摄影Digital Mammography(DM)是乳腺癌诊断中最常用和最实用的技术。DM 成像在致密乳房中存在一些弱点,其中肿瘤可能被周围组织隐藏(致密组织与肿瘤相比具有类似的衰减)。在实践中,超声 (US) 成像是 DM 的最佳替代方法,由于其敏感性、安全性和多功能性,它被用作乳腺癌分类和检测的补充方法。然而,超声成像的弱点是它依赖于手工,更多地依赖于放射科医生。

2024-05-16 16:46:26 1149

原创 5.12.1 Detecting and classifying lesions in mammograms with Deep Learning

计算机辅助检测 (CAD) 系统的开发是为了帮助放射科医生分析筛查性乳房 X 光检查,深度 CNN 有可能彻底改变医学图像分析。我们提出了一种基于最成功的对象检测框架之一的 CAD 系统。该系统无需任何人为干预即可检测乳房 X 光照片上的恶性或良性病变并对其进行分类。Region-based Convolutional Neural Networks,是一种基于卷积神经网络(CNN)的目标检测算法。

2024-05-14 21:19:08 908

原创 5.10.10 用于图像识别的深度残差学习

深度卷积神经网络为图像分类带来了一系列突破。深度网络自然地以端到端的多层方式集成低/中/高级特征和分类器,并且特征的“级别”可以通过堆叠层的数量(深度)来丰富。这个问题的一个障碍是臭名昭著的梯度消失/爆炸问题,它从一开始就阻碍了收敛。然而,这个问题已在很大程度上通过和中间归一化层得到解决,这些归一化层使具有数十层的网络能够开始收敛于具有反向传播的随机梯度下降(SGD)。当更深的网络能够开始收敛时,退化问题就暴露出来了:随着网络深度的增加,准确性变得饱和,然后迅速退化。

2024-05-14 14:13:10 1007

原创 5.10.8 Transformer in Transformer

Transformer是一种主要基于自注意力机制的神经网络,它可以提供不同特征之间的关系。CV 任务中的输入图像和真实标签之间存在语义差距。ViT 将给定​​图像划分为多个局部块作为视觉序列。然后,可以自然地计算任意两个图像块之间的注意力,以便为识别任务生成有效的特征表示。

2024-05-12 21:49:58 848

原创 5.10.6 用于乳腺癌超声图像分类的Vision Transformer

医学超声(US)成像由于其易用性、低成本和安全性已成为乳腺癌成像的主要方式。卷积神经网络(CNN)有限的局部感受野限制了他们学习全局上下文信息的能力。利用 ViT 对使用不同增强策略的乳房 US 图像进行分类。卷积神经网络(CNN)已成为自动医学图像分析应用(例如图像分类)中最常见的网络。然而,由于其局部感受野,这些模型在学习长距离信息方面表现不佳,限制了它们执行视觉任务的能力。用于图像分类应用的 Vision Transformer (ViT) 架构。

2024-05-12 17:36:25 620

原创 5.10.4 Vision Transformer的条件位置编码(CPE)

绝对位置编码方案可能会破坏平移等价性,因为它为每个标记(或每个图像块)添加了唯一的位置编码。相对位置编码不仅会带来额外的计算成本,而且还需要修改标准 Transformer 的实现。在这项工作中,我们提出了一种新颖的位置编码(PE)方案,将位置信息合并到 Transformer 中。所提出的 PE 是动态生成的,并以输入标记的局部邻域为条件。因此,我们的位置编码可以随着输入大小而变化,并尝试保持平移等价性。

2024-05-12 11:28:25 1009

原创 5.10.3 使用 Transformer 进行端到端对象检测(DETR)

对象检测的目标是预测每个感兴趣对象的一组边界框和类别标签。在计算机图形学和图像处理中,锚点(Anchor Point)是一个特定的位置,通常用于描述图像中的特征点或区域。它可以是单个像素点,也可以是一个更复杂的区域如矩形或椭圆。锚点的主要作用是为图像处理和计算机视觉任务提供一个参考点,以便更准确地描述和定位图像中的特征。在目标检测任务中,锚点用于预测目标物体的位置和大小;在图像匹配任务中,它帮助找到图像中的相似区域。

2024-05-11 17:15:06 1375 1

原创 5.10.1 Pre-Trained Image Processing Transformer

图像处理是更全局的图像分析或计算机视觉系统的低级部分的组成部分之一。图像处理的结果很大程度上影响后续高层部分对图像数据的识别和理解。近年来,深度学习已广泛应用于解决低级视觉任务,例如图像超分辨率、修复、去雨和着色。由于许多图像处理任务都是相关的,因此很自然地期望在一个数据集上预训练的模型可以对另一个数据集有所帮助。在计算机视觉中,deraining是指图像去雨的过程。具体来说,deraining技术旨在从被雨水影响的图像中恢复出清晰、无雨的图像内容。

2024-05-11 10:56:56 808

原创 邻域注意力Transformer

邻域注意力(NA),这是第一个高效且可扩展的视觉滑动窗口注意力机制,NA是一种逐像素操作,将自注意力(SA)定位到最近的相邻像素,因此与SA的二次复杂度相比,具有线性时间和空间复杂度。与Swin Transformer的窗口自注意力不同,滑动窗口模式允许NA的感受野增长,而无需额外的像素移位,并保留平移等变性。Neighborhood Attention Transformer可以自适应地将接收域定位到每个token周围的一个邻域,在不需要额外操作的情况下引入局部归纳偏差;

2024-05-10 19:11:14 759

原创 5.08.7 CMT: Convolutional Neural Networks Meet Vision Transformers

将基于 Transformer 的架构应用于视觉领域,并在图像分类、目标检测和语义分割等各种任务中取得了有希望的结果。Vision Transformer (ViT)是第一个用纯 Transformer 替代传统 CNN 主干的工作。输入图像(224×224×3)首先被分割成196个不重叠的patch(每个patch的固定大小为16×16×3),这类似于NLP中的单词token。然后将这些补丁送入堆叠的标准转换器块中,以对全局关系进行建模并提取用于分类的特征。

2024-05-10 17:58:58 844

原创 5.07 Pneumonia Detection in Chest X-Rays using Neural Networks

北美放射学会 (RSNA) 是一个由放射科医生、医疗专业人员和其他医学物理学家组成的国际协会。他们提出,机器学习可以通过优化可能的肺炎病例,帮助确定优先顺序并加速评估可能的肺炎病例初步检测(影像学筛查)。每张 X 射线图像均采用医学数字成像和通信 (DICOM) 格式,这是全球公认的标准医学成像格式。它是一种附加元数据以及像素数据或图像数据的格式。因此,每张图像都有元数据信息,如患者 ID、姓名、年龄和其他图像相关数据。从数据和调查中收集的推论用于创建基本的 CNN 模型。

2024-05-09 16:14:22 1011

原创 4.26.7具有超级令牌采样功能的 Vision Transformer

Transformer主导着自然语言处理领域,并表现出通过自注意力捕获长程依赖关系的出色能力。自注意力的计算复杂度与标记数量成二次方,导致高分辨率视觉任务(例如物体检测和分割)的计算成本巨大。ViT倾向于捕获具有高冗余的浅层局部特征。如图(b)所示,给定一个锚标记,浅层全局注意力集中在一些相邻的标记上(用红色填充),而忽略了大多数距离较远的标记。所有令牌之间的全局比较导致在捕获此类局部相关性时产生巨大的不必要的计算成本。

2024-05-08 21:30:43 768

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除