1500深度学习笔记
文章平均质量分 86
Scabbards_
这儿Scabbards,叫我1500或者00,现在大三,方向主要是医学深度学习,偶尔还做点数据,精神状态堪忧全靠东♡风♡谷♡早♡苗撑着
欢迎大家一起学习和交流w
展开
-
分布移位下用于泛化的泛化的自监督测试时训练
在本文中,我们提出了测试时训练(test - time Training),这是一种在训练数据和测试数据来自不同分布时提高预测模型性能的通用方法。我们将单个未标记的测试样本转化为自监督学习问题,在进行预测之前更新模型参数。这也自然地扩展到在online stream中的数据。我们的简单方法可以改善不同的图像分类基准,旨在评估对分布变化的鲁棒性。主要是复现实验理解用写的略有点草率原创 2024-04-19 15:33:41 · 619 阅读 · 0 评论 -
语义分割图像预处理代码小汇总
我常用的一些语义分割深度学习预处理代码,包括给把coco格式的数据转换成mask, 对文件名的各种修改,二值标签处理,数据集划分,修改图片大小等等原创 2024-04-14 16:59:58 · 313 阅读 · 0 评论 -
PairAug:增强图像-文本对对放射学有什么用?
总算迁移学习的工作差不多弄完了回来继续搞多模态了!在本文中,我们提出了一种名为PairAug的方法来解决在放射学中获取配对图像-文本数据集的挑战。paiaug包含两个分支:InterAug和IntraAug。InterAug生成与可信报告配对的合成放射学图像,创建新的患者病例,而IntraAug专注于为每个人生成不同的配对数据。我们采用数据修剪技术来确保高质量的数据。各种任务的实验结果表明,PairAug优于仅关注图像或文本扩展的基线方法。原创 2024-04-11 23:54:09 · 894 阅读 · 0 评论 -
FreMIM:傅里叶变换与遮罩的图像建模在医学图像分割中的应用
为了将关键的全局结构信息和局部细节信息结合到密集预测任务中,我们将视角转移到频域,提出了一种新的基于mimm的自监督预训练框架FreMIM,以更好地完成医学图像分割任务。在观察到详细的结构信息主要存在于高频成分中,而低频成分中高层次语义丰富的基础上,我们进一步在预训练阶段引入多阶段监督来指导表征学习。原创 2024-03-12 15:59:52 · 1136 阅读 · 0 评论 -
DLTTA:跨域医学图像测试时间自适应的动态学习率
本文解决了具有挑战性的测试时自适应问题,旨在通过学习测试时提供的推理样本,将深度模型推广到未知数据分布。本文提出了一种测试时间适应的动态学习率策略,旨在根据估计的预测差异动态调整模型更新的步长。原创 2024-02-19 11:21:17 · 1158 阅读 · 0 评论 -
神经调节的Hebbian学习用于完全测试时自适应
我们从生物学合理性学习中获得灵感,其中神经元反应是基于局部突触变化过程进行调整的,并由竞争性侧抑制规则激活。基于这些前馈学习规则,我们设计了一个软Hebbian学习过程,为Test-Time adaption 提供了一种无监督的有效机制。我们观察到,通过加入反馈神经调节层,这种前馈Hebbian学习完全适应测试时间的性能可以显著提高。原创 2024-01-29 15:55:13 · 704 阅读 · 0 评论 -
TENT:熵最小化的Fully Test-Time Adaption
在测试期间,模型必须自我调整以适应新的和不同的数据。在这种完全自适应测试时间的设置中,模型只有测试数据和它自己的参数。我们建议通过test entropy minimization (tent[1])来适应:我们通过其预测的熵来优化模型的置信度。我们的方法估计归一化统计量,并优化通道仿射变换,以在线更新每个批次。原创 2024-01-26 15:49:57 · 1297 阅读 · 0 评论 -
用于医学分割的实时Test-time adaption
我们提出了一个名为自适应UNet的新框架,其中每个卷积块都配备了一个自适应批处理归一化层,以根据domain代码调整特征。该域代码是使用在大型医学图像语料库上训练的预训练编码器生成的。在测试过程中,模型只接收新的测试图像,并根据测试数据生成域代码来适应源模型的特征。原创 2024-01-25 16:00:17 · 1090 阅读 · 0 评论 -
分布变化下的Test-Time adaption 综述
分布变化下的TTA综述,将TTA划分为几个不同的类别,即测试时间(无源)域自适应、测试时间批量自适应、在线测试时间自适应和测试时间先验自适应。对于每个类别,我们都提供了高级算法的综合分类,然后讨论了不同的学习场景。此外,我们还分析了TTA的相关应用,并讨论了未来研究的开放挑战和前景。着重写的OTTA,别的地方感兴趣自己读23333原创 2024-01-24 21:22:21 · 1842 阅读 · 0 评论 -
U-MixFormer:用于高效语义分割的类unet结构的混合注意力Transformer
作者提出了一种新的基于U-Net结构的Transformer解码器U-MixFormer。作者的方法通过利用编码器和解码器阶段之间的横向连接作为注意力模块的特征 Query ,除了依赖跳接的传统方式。此外,作者还创新地将来自不同编码器和解码器阶段的层次特征图混合,形成一个统一的表示形式,用于Key和Value,从而产生作者独特的_mix-attention_模块。感觉还是很不错的,未来可期!原创 2023-12-20 23:54:24 · 2428 阅读 · 3 评论 -
UNETR++:深入研究高效和准确的3D医学图像分割
在本文中,我们提出了一种名为unetr++的三维医学图像分割方法,该方法既提供了高质量的分割mask,又在参数、计算成本和推理速度方面具有效率。我们设计的核心是引入一种新的高效成对注意(efficient paired attention, EPA)块,该块使用基于空间和通道注意的一对相互依赖的分支有效地学习空间和通道方面的判别特征。原创 2023-11-24 16:06:11 · 1255 阅读 · 0 评论 -
UNETR:用于三维医学图像分割的Transformer
我们将体积(3D)医学图像分割任务重新制定为序列到序列的预测问题。我们引入了一种新的架构,称为UNEt-TRansformer(UNETR),它利用Transformer作为编码器来学习输入体积的序列表示并有效捕获全局多尺度信息,同时也遵循编码器和解码器的成功“u形”网络设计也能很好的提取到局部特征。原创 2023-11-23 22:58:39 · 844 阅读 · 0 评论 -
基于谐波参数空间的卷积神经网络自动三维牙齿分割
牙齿三维模型的自动分割是正畸CAD系统的一个重要步骤。三维牙齿分割是一项网格实例分割任务。由于三维牙齿模型表面复杂的几何特征常常导致牙齿边界检测失败,传统的网格分割方法难以实现自动准确的分割。我们提出了一个解决这个问题的新方法。我们将三维牙齿模型同构映射到二维谐波参数空间,并将其转换成图像。这使得我们可以使用CNN学习高度鲁棒的图像分割模型来实现3D牙齿模型的自动准确分割。最后,我们将图像分割掩码映射回三维牙齿模型,并使用改进的模糊聚类和切割算法对分割结果进行细化。原创 2023-11-14 18:49:11 · 348 阅读 · 0 评论 -
LViT:语言与视觉Transformer在医学图像分割
LViT模型中,医学文本注释被纳入以弥补图像数据的质量缺陷。此外,在半监督学习中,文本信息可以引导生成质量提高的伪标签。我们还提出了一种指数伪标签迭代机制(EPI)来帮助像素级注意模块(PLAM)在半监督LViT设置下保持局部图像特征。在我们的模型中,LV (Language-Vision)损失被设计用来直接使用文本信息监督未标记图像的训练。原创 2023-07-28 18:04:50 · 5115 阅读 · 2 评论 -
pytorch里常用操作(持续更新)
对不起我脑子不太记事儿每次变换都得想想想所以干脆汇总一下算了,当然也有一些不是torch包里面的但是没有关系hhh.挺多的,慢慢填吧原创 2023-10-16 21:40:08 · 440 阅读 · 0 评论 -
Anaconda常用指令以及问题解决
Anaconda点开 一直停留在 loading application且黑底原创 2023-01-16 22:24:35 · 156 阅读 · 0 评论 -
Transformer 中 Positional Encoding 实现
最近弄多模态中那个4维向量需要变成positional embedding导致中间代码卡了一段时间....把这一块浅浅多了解一下,因为很多多模态任务都需要这种位置编码....卡好久了!今个非得给他整明白了!原创 2023-10-15 17:25:50 · 304 阅读 · 0 评论 -
UNet及其变体在医学图像分割中的性能分析
很新的一篇Unet医学分割综述(20230922)!不过感觉严格意义上来说里面提到的方法不算很新,但是能给你理一下思路。本研究旨在探索深度学习模型在医学图像分割中的应用,特别关注UNet架构及其变体(Res-Unet, Attention Res-Unet)。我们试图评估这些模型在各种具有挑战性的医学图像分割任务中的性能,解决诸如图像归一化、调整大小、架构选择、损失函数设计和超参数调优等问题。原创 2023-10-10 15:42:12 · 409 阅读 · 0 评论 -
MA-SAM:模态不可知的三维医学图像分割SAM自适应
这一篇sam是在3D医疗领域的新屠榜作,个人觉得还是很值得一看的。我们的目标是充分利用SAM在其原始2D骨干中的预训练权重。在本文中,我们引入了一个模态无关的SAM自适应框架,称为MA-SAM,它适用于各种体积和视频医疗数据。我们的方法基于parameter-efficient 的微调策略保留SAM的大部分预训练权值。通过在图像编码器的Transformer中注入一系列3D适配器,我们的方法使预训练的2D骨干能够从输入数据中提取三维信息。原创 2023-10-07 17:11:01 · 1360 阅读 · 1 评论 -
MDETR:端到端多模态理解的调制检测
多模态推理系统依靠预训练的目标检测器从图像中提取感兴趣的区域。然而,这个关键模块通常用作黑匣子,独立于下游任务进行训练,并使用固定的对象和属性词汇表。这使得此类系统难以捕捉以自由形式文本表达的视觉概念的长尾。在本文中,我们提出了MDETR,这是一种端到端调制检测器,可以检测以原始文本查询(如标题或问题)为条件的图像中的对象。我们使用基于Transformer的架构,通过在模型的早期阶段融合两种模式来对文本和图像进行联合推理。原创 2023-09-28 17:14:35 · 186 阅读 · 0 评论 -
目标检测(Object Detection)概念速通
上回组会分享了DETR和MDETR(其中多模态融合方法可以狠狠参考),然后我一个一直做分割的虽然跑过Yolo5但是其实里面还有点原理不太懂,老师叫我明天组会详细分享一下,我只能把目标检测速通一下,,,啊!!!!搞科研哪有不疯的!!!感觉基本概念摸了一遍,主要只写到R-CNN系列,YOLO到时候再说吧hhh原创 2023-09-22 21:17:12 · 750 阅读 · 2 评论 -
BERT: 面向语言理解的深度双向Transformer预训练
虽然本人之前一直做纯cv但是最近接触多模态发现他们文本几乎都用的是bert来处理,所以我觉得还是有必要去了解一点的!估计后面还会写怎么去处理多模态文本数据的博文...原创 2023-09-20 17:18:08 · 381 阅读 · 0 评论 -
DETR:End-to-End Object Detection with Transformers
DETR是目标检测领域一个里程碑式的工作,既不需要proposal,也不需要anchor,直接用Transformer全局预测能力把目标检测看成一个集合预测的问题,不需要用nms作后处理。因为跟老师讨论多模态融合方法的时候老师叫我去看看MDETR,但是它之前的工作就是DETR,所以我就去喵喵,看的李沐老师的视频记的一点笔记原创 2023-09-14 16:53:14 · 444 阅读 · 0 评论 -
双线性插值以及计算
双线性插值,有参考视频,侵删,随手记录,自用自用自用原创 2023-09-09 17:28:42 · 1051 阅读 · 1 评论 -
DeU-Net: 用于三维心脏mri视频分割的可变形(Deformable)U-Net
在本文中,我们提出了一种新的可变形U-Net (DeUNet)来充分利用3D心脏MRI视频的时空信息,包括一个时间可变形聚合模块(TDAM)和一个可变形全局位置注意(DGPA)网络。首先,TDAM以心脏MRI视频片段作为输入,并通过偏移预测网络提取时间信息。然后通过时间聚合可变形卷积对提取的时间信息进行融合,生成融合特征图。此外,为了聚合有意义的特征,我们采用可变形注意力U-Net设计了DGPA网络,该网络可以将更大范围的多维上下文信息编码为全局和局部特征。原创 2023-09-08 19:02:21 · 730 阅读 · 0 评论 -
Conformer: Local Features Coupling Global Representationsfor Visual Recognition
在卷积神经网络(CNN)中,卷积运算擅长提取局部特征,但难以捕获全局表征。在visual transformer中,级联的自注意模块可以捕获远距离的特征依赖,但不幸的是会破坏局部特征细节。在本文中,我们提出了一种称为Conformer的混合网络结构,以利用卷积运算和自注意机制来增强表征学习。一致性源于特征耦合单元(Feature Coupling Unit, FCU),它以交互的方式融合了不同分辨率下的局部特征和全局表征。原创 2023-09-04 16:38:16 · 355 阅读 · 0 评论 -
FC-CLIP-卷积永存:开放词汇分割与单一冻结卷积CLIP
我们使用共享的冷冻卷积CLIP骨干将所有内容构建到单级框架中,这不仅大大简化了当前的两级管道,而且还显著地产生了更好的准确性-成本权衡。由此产生的单级系统,称为FC-CLIP,受益于以下观察结果:冻结的CLIP主干保持了开放词汇表分类的能力,也可以作为强掩码生成器,卷积CLIP可以很好地推广到比对比图像-文本预训练期间使用的更大的输入分辨率。原创 2023-08-31 08:57:57 · 653 阅读 · 0 评论 -
INSTANCE 2022数据集
看了看INSTANCE 2022数据集的paper,找找思路原创 2023-08-30 08:37:49 · 764 阅读 · 5 评论 -
Universal Model:基于clip驱动的器官分割和肿瘤检测通用模型
,我们提出了CLIP驱动的通用模型,该模型将从对比语言图像预训练(CLIP)中学习到的文本嵌入结合到分割模型中。这种基于clip的标签编码捕获解剖关系,使模型能够学习结构化特征嵌入并分割25个器官和6种肿瘤。原创 2023-08-29 15:01:10 · 1533 阅读 · 1 评论 -
视觉注意力收集
一些计算机视觉中常用的注意力机制,通道注意力,空间注意力,自注意力,多头自注意力,都比较基础,持续更新原创 2023-08-28 16:01:27 · 123 阅读 · 0 评论 -
视觉语言多模态预训练综述
一个综述,包括模型结构,预训练模型以及融合方法等原创 2023-08-28 00:07:51 · 584 阅读 · 0 评论 -
多模态分割医学数据集小调研
多模态医学数据集小调研,打算做脑部的,自用原创 2023-08-17 11:18:03 · 1202 阅读 · 11 评论 -
PLA: 语言驱动的开放词汇3D场景理解
我们通过为3D多视图图像添加字幕来提取预训练视觉语言(VL)基础模型中编码的知识,从而明确地将3D和语义丰富的字幕关联起来。此外,为了从字幕中促进从粗到精的视觉语义表示学习,我们设计了分层的3D字幕对,利用3D场景和多视图图像之间的几何约束。最后,通过采用对比学习,该模型学习连接3D和文本的语言感知嵌入,以完成开放词汇任务。原创 2023-08-16 19:40:44 · 1056 阅读 · 0 评论 -
3D- vista:预训练的3D视觉和文本对齐Transformer
目前的3D-VL模型严重依赖于复杂的模块、辅助损耗和优化技巧,这需要一个简单而统一的模型。在本文中,我们提出了3D- vista,一个预训练的3D视觉和文本对齐转换器,可以很容易地适应各种下游任务。3D-VisTA简单地利用self attention层进行单模态建模和多模态融合,而无需任何复杂的特定任务设计。为了进一步提高其在3D- vl任务上的性能,我们构建了ScanScribe,这是第一个用于3D- vl预训练的大规模3D场景文本对数据集。原创 2023-08-15 17:11:47 · 1395 阅读 · 0 评论 -
LISA:通过大语言模型进行推理分割
我们提出了一种新的分割任务-推理分割。该任务的目的是在给定复杂且隐式的查询文本的情况下输出分割mask。此外,我们建立了一个由一千多个图像指令对组成的基准,将复杂的推理和世界知识纳入评估目的。最后,我们提出了LISA:大型语言指导分割助手,它继承了多模态大型语言模型(LLM)的语言生成能力,同时还具有生成分割掩码的能力。LISA可以处理以下情况:1)复杂推理;2)世界知识;3)解释性答案;4)多回合对话原创 2023-08-07 16:48:01 · 2086 阅读 · 0 评论 -
Ariadne’s Thread-使用文本提示改进对感染区域的分割胸部x线图像
本文提出了一种使用独立的文本编码器和图像编码器的多模态分割方法,并设计了一种导引解码器,在解码阶段融合两种模式的特征。其实这篇完全就是VLiT的网络结构优化,改动也不是很大,我寻思这个比较新的方向比较好发文章喔。这里背景就不多介绍了,可以直接去参考我之前博文VLiT。Ariadne’s Thread,是这个名字来自古希腊神话,讲述了忒修斯在阿里阿德涅的金线的帮助下走出迷宫的故事。原创 2023-08-04 21:36:22 · 504 阅读 · 3 评论 -
VLT:Vision-Language Transformer用于引用的视觉语言转换和查询生成分割
为了让模型对整个图像有一个整体的理解,我们引入了转换器和多头注意来构建一个具有编码器-解码器注意机制架构的网络,该架构可以用语言表达“查询”给定的图像。此外,我们提出了一个查询生成模块,该模块产生多组具有不同关注权重的查询,这些查询代表了从不同方面对语言表达的不同理解。同时,为了从这些基于视觉线索的多样化理解中找到最佳方法,我们进一步提出了一个查询平衡模块,自适应地选择这些查询的输出特征,以更好地生成掩码。原创 2023-08-03 16:50:50 · 1544 阅读 · 0 评论 -
LoVT:医学图像与报告的局部表征联合学习
这是第一个针对局部医学成像任务的文本监督预训练方法。该方法将实例级图像-报告对比学习与图像区域和报告句子表征的局部对比学习相结合。感觉算是比较经典的双塔模型+下游模型微调的一个论文吧,实验挺多的原创 2023-08-01 17:45:57 · 663 阅读 · 0 评论 -
医学多模态综述
医学多模态综述摘录,自用。本人搞分割的重点看了一下分割的,其余任务没时间细看我就截了个模型汇总图,想详细了解的去喵一下上面这个论文就行原创 2023-07-27 20:45:02 · 553 阅读 · 0 评论 -
多模态预训练 + 自监督学习 + 下游任务介绍
常见自监督学习,包含基于对比学习的视觉自监督算法和基于mask的视觉自监督算法,主要是概念;下游任务包括跨模态检索,zeroshot分类,Image Captioning,主要 指个北原创 2023-07-26 16:15:55 · 1247 阅读 · 0 评论