此文章主要用于个人学习,如有侵犯请私信。
1、MLLM:
2、Robust:指系统收到干扰时,仍能保持其性能和稳定性的能力
3、CLIP(多模型预训练神经网络):使用大量图像和文本的配对数据进行预训练,以学习图像和文本之间的对齐关系,CLIP模型有两个模态,一个是文本模态,一个是视觉模态,包括两个主要部分:
3.1. Text Encoder:用于将文本转换为低维向量表示-Embeding。
3.2. Image Encoder:用于将图像转换为类似的向量表示-Embedding。
4、VQA数据:人工标注,关于图像开放式数据集
5、RadFM:用于文本生成任务
6、M3D-Data:为各种3D多模态医疗任务提供数据源。
7、M3D-Cap:大规模的3D医学图像-文本对数据集,支持图像文本检索和报告生成等任务。
8、Qwen72B:开源大语言模型,Qwen包含了大型语言模型(LLM)和大型多模态模型(LMM)
9、CLIP:基于对比学习的多模态模型,训练数据是文本—图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。
10、对比学习
10.1对比学习的作用:是一种机器学习技术,通过训练模型哪些数据点相似或不同,来学习没有标签的数据集的一般特征
10.1.1数据增强:技术包括裁剪、翻转、旋转、随机裁剪和颜色变换
10.1.2编码器网络
通常是深度神经网络架构,例如用于图像数据的卷积神经网络(CNN)或用于顺序数据的循环神经网络(RNN)。编码器网络将增强实例作为输入,并将它们映射到潜在表示空间,在其中捕获有意义的特征和相似性,从而有助于在后续步骤中区分相似和不相似的实例。
10.1.3投影网络
投影网络获取编码器网络的输出并将其投影到低维空间,降低了数据的复杂性和冗余,有助于更好地分离相似和不相似的实例。
10.1.4对比学习
目标是最大化正对(来自同一样本的实例)之间的一致性,并最小化负对(来自不同样本的实例)之间的一致性。这鼓励模型将相似的实例拉得更近,同时将不同的实例推开。实例之间的相似度通常使用距离度量来测量
10.1.5损失函数
1、对比损失:对比损失函数通常定义为基于边际的损失,其中实例之间的相似性是使用距离度量来测量的,通过惩罚嵌入空间中距离太远的正样本和距离太近的负样本来计算的。如InfoNCE 损失
2、三重态损失:涉及锚点实例、正样本(与锚点相似)和负样本(与锚点不同),确保anchor与正样本之间的距离比anchor与负样本之间的距离小指定的幅度。
10.1.6训练优化
训练过程涉及迭代更新模型的参数以最小化损失函数。随机梯度下降(SGD)或其变体等优化算法通常用于微调模型的超参数
10.1.7评估概括
评估和泛化是评估学习表征的质量及其在实际应用中的有效性的关键步骤。
10.2流行的对比学习框架
10.2.1SimCLR
自监督对比学习框架
SimCLR 鼓励模型学习捕获数据中有意义的相似点和差异的表示。该框架采用大批量训练方案来促进高效且有效的对比学习。此外,SimCLR 还采用了一种称为“归一化温度尺度交叉熵”(NT-Xent) 损失的特定归一化技术,可增强训练稳定性并提高学习表示的质量。
10.2.2MoCo
自监督对比学习框架,利用动量编码器,逐渐更新负例的表示,以增强模型捕获相关信息的能力。
11、SegVol:引入用户交互模块,使得医生能够在实际操作中调整分割参数,进一步优化分割效果。
12、LoRA:高效的AI模型调整技术,在保持预训练模型参数大部分不变时,引入少量可训练参数来适应特定任务
13、AdamW
即在Adam基础加weight decay正则化,
14、PMC-CLIP:clip风格的生物医学领域视觉语言模型。该模型在具有标准图像-文本对比 (ITC)损失的PMC-OA上进行训练,为了促进图像和文本的联合交互,还采用了掩码语言建模 (MLM)
15、ZeRO:
一个模型由多个Submodule
组成。在初始化时,ZeRO-3 会将每个Submodule Parameter Tensor
下的数据按照 GPU 的数量,分摊切割成多个小ds_tensor
储存在在不同 GPU 进程中。因为ds_tensor
可以共同组合出完整数据,所以原始param
下的数据变为冗余信息,会被释放掉。
16、正交变换
但若噪音方与低频非噪音相近,硬阈值则会抹掉图像细节,因此对块间也进行了正交变换,再次提取相似块相同位置的低频信息