自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 MedMamba论文精读

文章介绍了一种新的用于医学图像分类的Mamba方法

2024-05-04 10:36:44 739

原创 VMamba模型与分类性能探究

例如VMambaTiny/Small/Base(分别具有22/44/75 M参数)使用MaskRCNN检测器(1×训练计划)在COCO上实现了46.5%/48.2%/48.5%的mAP,使用512 × 512输入的UperNet在ADE20K上实现了47.3%/49.5%/50.0%的mIoU,展现了其作为一个强大的基础模型的潜力。受到Mamba有效建模长序列的能力的启发,本文提出VMamba,一个通用的视觉骨干模型,旨在将计算复杂度降低到线性,同时保留ViTs的优势功能。的实际部署带来了挑战。

2024-04-25 14:45:42 884 1

原创 Robust Collaborative Learning of Patch-Level and Image-Level Annotations for DR 文章阅读

该模型主要包括一个病变注意力模块和一个分级模块,通过仅用几个块级注释来训练病变注意力生成器,该模型可以以半监督的方式来为分级模块提供输入图像的块级注意力。对输入图像,该方法首先将图片分割成小块,然后根据每个小块中存在的病变生成概率向量。基于眼底图像的糖尿病视网膜病变分级的块级和图像级注释的鲁棒协同学习。本文提出一个强大的端到端的框架,协同学习斑块级病变和图像级等级注释。)用于将异常病变图和来自分类主干的特征集成的。图像补丁进行预训练,以避免丢失标签的问题。分级的单向特征传输,即病变相关模块。

2024-03-16 11:30:32 312 1

原创 INSightR-Net

我们使用稀疏性和多样性量化了我们的解释的质量,并证明了新的相似性函数和对损失分量的调整有助于改进解释。最终的预测模型被建模为原型标签的加权平均值,因此为回归任务提供了直观的解释。的基础上加了一个原型层,可以实现图像中与学习原型最相似的区域的可视化。现在深度学习方法虽然能够在医学成像的多个回归任务上取得优异性能,但是大多数这些方法都无法解释其推理过程,阻碍了其在临床的应用。、从本质上可解释的训练模型中获得的解释,在设计上是准确的表示,但开发基于可解释的。,样本会分散在潜在空间中,原型分散在这些表示中。

2023-11-23 19:39:34 25

原创 COST-SENSITIVE REGULARIZATION FOR DIABETIC RETINOPATHY GRADING FROM EYE FUNDUS IMAGES

Table I的结果显示引入CS正则化后性能带来了可观的提升,尤其是对kappa score指标,因为cost matrix会根据标签空间中的距离对其中的错误预测进行惩罚,使用Focal Loss提升3.5%以及使用NULS提升1%,因为Focal Loss引入了一定的不对称性。需要注意的是,TaBLE I中的结果不适合直接与一些竞赛中的数据进行比较,因为竞赛中可以仅提交20%测试数据的预测,而且缺乏跨数据集实验来评估模型的泛化能力。进行运算,相近的标签惩罚小而偏差大的预测引入更大的损失值。

2023-11-13 10:18:14 37

原创 Lesion-Aware Transformers for Diabetic Retinopathy Grading论文阅读笔记

自注意力模块中,对病变过滤器之间的相互作用进行建模,增加他们的差异。这样获取的病变感知激活图M也是多个注意力头级联后的结果,每个filter表示一个特定病变的空间分布,如果属于此类病变,那么会有较高的响应值,得到相似性Sn会加权到特征图上。F为特征图,z是标签,C是严重程度等级的数量(class),给定一张图片,该网络的输出是预测的DR严重程度y和相应的病变激活图。网络结构中添加了一个分类模块,包含基于区域感知特征的全局一致性损失,输入的是病变感知特征,输出的是DR严重程度,由K个全连接层组成。

2023-11-04 14:00:25 37 1

原创 SSiT论文阅读

在所提出的对比学习方案中,我们根据显着图从动量编码器的输入序列中删除琐碎的补丁,从而约束动量编码器提供专注于显着区域的目标表示。研究表明,SSiT 中的自监督 ViT 提供了与 DR 相关的诊断特征的丰富语义信息,这是其他 SSL 方法中未观察到的。其中λcl 和 λseg 是平衡两个目标的超参数为了最小化目标 Lcl,查询编码器需要捕获输入图像的显着性,并将输出表示投影到由显着性引导动量编码器编码的潜在空间中。通过从关键编码器的输入序列中删除琐碎的补丁的方法来鼓励查询编码器学习显着区域的表示。

2023-10-28 20:43:50 46 1

原创 CoT-XNet论文阅读笔记

3 基于深度学习的网络在训练过程中充分学习数据特征的时候,往往会忽略数据集的多样性,影响模型的泛化。在随机森林中,每个决策树都是独立构建的,使用随机选择的特征和样本进行训练,最终将每个决策树的分类结果进行投票,得到最终的分类结果。而图4b中,假设有相同的输入x,让它转化为K,V,Q,键映射定义为K = X,查询映射定义为 Q = X ,值映射定义为 V= XWv,但是传统的自注意力块所有的查询键关系都是通过独立的查询键对来学习的,而没有探索它们之间丰富的上下文,这很大程度上限制了视觉表示学习。

2023-10-22 18:18:52 52 1

原创 ViT原文以及在DR领域的应用

最后要加上图像块的位置编码信息,图中是将图片打成了九宫格,所以位置编码信息是1-9,但这只是一个序号,并不是真正使用的位置编码,具体的做法是通过一个表(表中的每一行就代表了1-9的序号,每一行就是一个向量,向量的维度是768,这个向量也是可以学的)得到位置信息,然后将这些位置信息加到所有的token中(注意这里是加,而不是拼接,序号1-9仅仅是示范,而真正的应当是1-196),所以加上位置信息之后,这个序列还是197x768。通常,我们训练的参数都是常见的结构,(卷积、全连接等)里面的计算参数。

2023-10-14 14:07:23 91 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除