自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Sarah ~

学习使我快乐

  • 博客(105)
  • 收藏
  • 关注

原创 多模态融合任务问题

各个模态的特征规模差异很大时,模型可能会倾向于某个特定模态(通常是信息量更大的模态),从而忽视其他模态的信息。在多模态融合任务中,对于同一个模型,有时单模态的性能比多模态的性能还要好,这是为什么?例如,基因表达和基因突变的特征可能在某些任务中有较强的关联性,但在其他情况下,它们之间的关系可能并不明显,导致多模态融合时没有显著提升。对不同模态的特征进行筛选和去噪,减少冗余信息的影响。可以使用对抗训练的策略,如生成对抗网络(GANs),帮助模型在训练时更好地利用不同模态的信息,避免某些模态过度影响模型学习。

2025-04-23 09:39:29 447

原创 残差连接、跳跃连接

信息多样性增加: 通过拼接,网络能够将来自多个层的不同信息融合在一起,使得模型能够从多种特征中学习,而不是仅仅依赖于某一层的变换。增强特征复用: 拼接方式使得每一层都能访问到前面所有层的特征图,因此每一层不仅能够“使用”当前层的特征,还能够复用之前层的特征信息。更强的表达能力: 由于拼接操作将多个特征图合并,网络在每一层接收的信息量大大增加,有助于学习更丰富的特征表示,尤其是在图像分割、目标检测等任务中,丰富的特征信息能够提供更高的精度。这种“跳过”层的方式,有助于避免过拟合,使得网络具有更好的泛化能力。

2025-04-16 14:11:04 1056

原创 VAE 训练出现nan

你可能需要尝试上述一个或多个策略,才能找到适合你的模型和数据的解决方案。尝试使用不同的初始化方法,例如Glorot初始化或He初始化,这些方法考虑到了输入和输出维度,有助于维持激活函数的输出分布。添加小的常数到KL散度计算中在计算KL散度时,添加一个很小的常数(比如1e-6)到对数计算中,可以避免对数函数中的数值不稳定(比如log(0))。遇到变分自编码器(VAE)的KL散度损失变成NaN的情况,通常是因为数值稳定性问题。逐步调试逐步运行你的模型,检查每一步的输出,确定是哪一部分导致了NaN的出现。

2025-04-10 16:40:39 177 2

原创 简单分布式模型训练(多GPU)

适用于较小规模的多 GPU 环境,容易实现并且代码较为简单。:适用于大规模的多 GPU 环境,能够提供更好的性能和扩展性,尤其是在多节点训练中更为高效。你可以根据硬件环境的规模和训练的复杂度来选择使用或。

2025-03-26 11:23:13 318

原创 EMA与迁移学习技术的结合

这使得EMA成为迁移学习中的一种有效的工具,能够提高跨领域迁移和快速适应的能力。EMA的作用:在领域适应中,源领域和目标领域的样本分布不同,训练过程中可能会产生大量的噪声,导致训练过程中的参数不稳定。EMA的作用:通过使用EMA,元学习中的参数更新可以更加平稳,使得在新的任务或少量样本下,模型能够快速而稳定地适应新任务的学习,避免过于依赖单一训练步骤的梯度信息。在元学习的训练过程中,EMA可以帮助平滑在多个任务间的参数更新,从而增强模型在面对不同任务时的适应能力,避免在快速更新过程中出现过拟合或过慢收敛。

2025-03-25 10:16:45 598

原创 信息瓶颈Information Bottleneck笔记

https://zhuanlan.zhihu.com/p/454571264https://zhuanlan.zhihu.com/p/708633712https://www.zhihu.com/question/655715111/answer/3497199536https://www.zhihu.com/question/65697409/answer/3529724531https://www.zhihu.com/question/65725209/answer/3550981900http

2025-03-21 16:43:16 84

原创 增量学习 ewc

​知识蒸馏(Knowledge Distillation)​:强制新模型模仿旧模型的输出。​弹性权重巩固(EWC)​:保护重要参数(通过Fisher信息矩阵量化参数重要性)​课程学习(Curriculum Learning)​:按难度渐进式引入新样本。​问题:模型在新任务上优化时破坏旧知识(例如:训练识别鸟类后忘记如何识别猫)​回放机制(Replay)​:存储部分旧数据或生成伪样本(如使用GAN)​灾难性遗忘(Catastrophic Forgetting)​。​医疗诊断:整合新发现的疾病亚型或治疗案例。

2025-03-13 16:35:46 347

原创 贝叶斯推断

MCMC

2025-02-08 14:24:13 129

原创 原型对比学习(占坑)

kk。

2025-02-08 14:16:19 94

原创 高斯混合模型GMM

GMM

2025-02-08 14:15:06 123

原创 GO enrichment analysis by Python

ref:

2025-02-07 10:31:53 120

原创 对比学习优化策略(QA by AI )

通过选择最具有挑战性的负样本来训练,可以减少计算复杂度。在训练中,负样本通常是那些距离当前样本较近的样本,即“困难负样本”,这样模型可以更专注于对这些“困难”的负样本进行学习,避免计算那些距离远的负样本对。Online Hard Example Mining (OHEM):在每次训练中,只选取那些最难的负样本,而忽略掉容易的负样本,从而减少负样本的数量。一些方法,如 Hard Negative Mining,会在每一轮训练中选择困难的负样本来计算损失,这不仅加速了训练,而且提高了表示学习的效果。

2025-02-07 09:56:59 656

原创 batchsize 对模型训练结果的影响

(AI生成)

2025-02-07 09:53:20 509

原创 cluster c-index

【代码】cluster c-index。

2025-02-06 16:01:10 706

原创 t-sne亚型特征可视化Python

【代码】t-sne亚型特征可视化Python。

2025-02-05 14:57:29 151

原创 Decoupled Contrastive Learning笔记

如题。

2025-02-05 11:38:38 134

原创 对比学习笔记

对比表示学习的目标是学习这样一个嵌入空间,其中相似的样本对彼此保持接近,而不同的样本对则相距甚远。

2025-02-05 10:48:53 105

原创 Convert Ensembl IDs to gene symbols

【代码】Convert Ensembl IDs to gene symbols。

2025-01-23 14:28:56 119

原创 Problems with convergence in the Cox proportional hazard model

https://lifelines.readthedocs.io/en/latest/Examples.html#problems-with-convergence-in-the-cox-proportional-hazard-model

2025-01-22 10:19:58 122

原创 当面对医疗数据量少而模型复杂度高的情况

通过上述措施,你应该能够有效缓解因数据量不足而导致的模型训练困难,并提高模型在医疗应用中的可靠性和准确性。记住,医疗领域尤其需要谨慎对待模型的选择和评估,确保任何提出的解决方案都经过严格的验证流程。使用迁移学习,下载一个已经在大规模医学图像数据集(如ImageNet)上预训练好的ResNet模型,并在其基础上进行微调。利用领域知识,咨询病理学家关于关键特征的信息,进而调整模型的损失函数或正则化项,使其更符合临床实际。尝试集成学习,构建多个不同初始化的CNN模型,并通过投票或平均的方式做出最终预测。

2025-01-20 15:41:35 336

原创 多模态+小样本(占坑)

zhankeng。

2025-01-15 14:46:39 95

原创 MoEs and Transformers 笔记

GLaM 这篇工作探索了如何使用仅为原来 1/3 的计算资源 (因为 MoE 模型在训练时需要的计算量较少,从而能够显著降低碳足迹) 来训练与 GPT-3 质量相匹配的模型来提高这些模型的规模。增加更多专家可以提升处理样本的效率和加速模型的运算速度,但这些优势随着专家数量的增加而递减 (尤其是当专家数量达到 256 或 512 之后更为明显)。值得注意的是,Switch Transformers 的研究表明,其在大规模模型中的特性在小规模模型下也同样适用,即便是每层仅包含 2、4 或 8 个专家。

2025-01-08 13:58:51 724

原创 混合专家模型 (MoE)笔记摘要

令牌的路由方式是 MoE 使用中的一个关键点,因为路由器由学习的参数组成,并且与网络的其他部分一同进行预训练。在实际应用中,这些专家通常是前馈网络 (FFN),但它们也可以是更复杂的网络结构,甚至可以是 MoE 层本身,从而形成层级式的 MoE 结构。总结来说,在混合专家模型 (MoE) 中,我们将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层,其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。与具有相同参数数量的模型相比,具有更快的 推理速度。

2025-01-07 17:18:57 411

原创 Attention系列笔记

通过点积,可以衡量查询和键之间的相似性。然后对点积结果进行缩放,即除以根号dk,对点积结果进行 softmax 归一化,得到每个查询对所有键的权重;最后,用归一化后的权重对值 V 进行加权求和,得到最终的注意力输出.自注意力的目标是根据输入序列中的每个位置的特征,计算该位置与序列中其他位置的相关性。这种机制能够动态地关注输入序列中的重要部分,而不是局限于固定大小的上下文窗口。除以根号d_k这个缩放步骤是为了避免在高维空间中,点积值过大,导致 softmax 的梯度过小,造成模型训练不稳定。

2025-01-07 12:25:32 391

原创 Transformer笔记

(占坑)

2025-01-02 15:17:24 104

原创 位置编码--RoPE

RoPE通过引入旋转矩阵来对序列中的每个位置进行编码,从而使得模型能够有效捕捉序列中的位置信息,尤其适用于长序列的建模。在标准的Transformer模型中,位置编码(Positional Encoding,PE)通常通过固定的正弦和余弦函数生成,旨在为模型提供序列中各个元素的位置。这个方法的一个潜在问题是,它对于长序列的泛化能力较差,尤其是在处理长文本或其他复杂的序列数据时,传统的位置编码可能无法很好地捕捉到长距离的依赖关系。这是通过旋转机制实现的,其中序列中的每个位置都由嵌入空间中的旋转表示。

2025-01-02 10:57:07 436

原创 位置编码--RPE

在一些改进版本的 Transformer 模型中(如 Transformer-XL、T5 和 Reformer),相对位置编码的计算方式可能进一步优化,以适应更大规模的数据集和更长的序列。相对位置编码是 Transformer 中的一种改进位置编码方式,它的主要目的是通过直接建模序列中元素之间的相对位置,而不是绝对位置,从而更好地捕捉序列元素之间的依赖关系,尤其在长序列或者具有较强依赖关系的任务中,能够展现出更好的性能。

2024-12-31 16:48:01 388

原创 位置编码-APE

绝对位置编码通过为每个序列位置生成固定的编码向量,将这些向量添加到输入的词嵌入中,从而将位置信息显式地融入模型。这种加法操作将词嵌入与位置编码结合在一起,使得模型既能够感知词语的语义信息,也能感知其在序列中的位置信息。周期性和可扩展性:正弦和余弦函数的周期性使得编码具有平滑的性质,且理论上可以扩展到更长的序列。长序列表示问题:对于非常长的序列,编码的分辨率可能不足(由于正弦和余弦函数的周期性)。平滑性:相邻位置的编码向量之间具有平滑的变化,便于模型捕捉到序列中的局部连续性。这减少了模型的参数量。

2024-12-31 16:24:40 655

原创 [未解决]RuntimeError: DDP exp ects same model across all ran ks, but Rank 0 has 80 params

需要将NCCL_P2P_DISABLE=1,就不会卡住了。

2024-12-25 14:06:04 288

原创 三个激活函数模块:GELU、SELU 和 RELU

输入拆分:每个类的forward方法都通过将输入x沿着最后一个维度拆分成两部分,x和gates。然后使用gates部分经过激活函数的处理,最终通过逐元素相乘的方式与x结合。不同的激活函数GELU使用高斯误差线性单元(Gaussian Error Linear Unit)。SELU使用自归一化的指数线性单元(Scaled Exponential Linear Unit)。RELU使用常见的修正线性单元(Rectified Linear Unit)。逐元素乘法:这些激活函数通过将x和激活后的gates。

2024-11-18 11:20:46 2063

原创 llava 配置

解决参考: https://blog.csdn.net/YY007H/article/details/135506622。建议一直添加镜像源: -i https://pypi.tuna.tsinghua.edu.cn/simple。参考github: https://github.com/haotian-liu/LLaVA。

2024-10-31 17:20:22 426

原创 docker安装+使用

1.安装教程,已测有效:https://blog.csdn.net/weixin_44355653/article/details/140267707?

2024-10-18 10:03:01 241

原创 accelerate 分布式框架

该框架包括 : DeepSpeed(三阶段:), FSDP, Megatron_LM 其中,Megatron_LM 集成了 TP(张量并行)、PP(流水线并行)、SP(序列并行)以及DP(数据并行)

2024-09-24 15:25:16 274

原创 tensor fusion

2024-09-19 13:53:32 129

原创 torch linear层更新参数

【代码】torch linear层更新参数。

2024-08-23 11:35:31 245 1

原创 linux nvidia-smi失败(已测有效)

b. 如果未安装驱动,则可以使用默认的开源驱动或手动下载和安装Nvidia驱动。常用的方法包括使用Nvidia官方提供的安装程序、通过包管理器安装或使用闭源驱动。环境变量配置错误:如果安装了Nvidia驱动但仍然无法找到nvidia命令,可能是由于环境变量配置错误导致的。nvidia命令未包含在安装的软件包中:另一个可能的原因是nvidia命令未包含在您安装的软件包中。Nvidia驱动未安装:首先,要使用nvidia命令,需要在系统上安装Nvidia驱动程序。c. 完成安装后,尝试运行nvidia命令。

2024-08-14 09:30:54 3464

原创 conda更新清华源配置

【代码】conda更新清华源配置。

2024-08-13 14:32:32 1045

原创 Windows+wget

step1: 下载wget.exe ,链接:https://eternallybored.org/misc/wget/step2:将wget.exe移动到C:Windows/System32文件夹下。

2024-08-13 12:15:01 435

原创 修改Ubuntu 22.04里面默认的源(已测有效)

【代码】修改Ubuntu 22.04里面默认的源(已测有效)

2024-08-13 11:10:59 865

原创 mygene

ref:https://weiyan.cc/yuque/%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF/%E8%BD%AF%E4%BB%B6/2019-07-01-python-mygene/#mygeneinfo

2024-08-01 17:07:08 451

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除