学习记录
不当菜鸡的程序媛
你若盛开,清风自来
展开
-
半精度(FP16)和单精度(FP32)
总结来说,选择使用哪种精度取决于具体应用的需求,尤其是对计算精度和性能的平衡。原创 2024-10-03 18:57:58 · 154 阅读 · 0 评论 -
vscode分布式训练debug
转载:vscode分布式训练debug_分布式ai vscode-CSDN博客转载 2024-09-19 12:13:11 · 38 阅读 · 0 评论 -
胶囊网络 capsule network
万字胶囊网络超详细总结(原理加pytorch代码)_capsule networks代码-CSDN博客 浅谈胶囊网络与动态路由算法 - 知乎 (zhihu.com)原创 2024-09-13 14:58:24 · 187 阅读 · 0 评论 -
MOE中的路由 Z-loss
路由 Z-loss是 MoE 模型中的一个辅助损失项,用于对过大的 logits 进行惩罚,防止数值溢出并提高模型的稳定性。通过抑制过大的 logits,Z-loss 可以帮助模型保持在一个稳定的数值范围内,从而提高训练和推理的数值稳定性。原创 2024-09-12 13:42:19 · 400 阅读 · 0 评论 -
huggingface快速下载模型及其配置
2. 出现如下图的命令。大家知道,每次进huggingface里面一个个手动下载文件然后再上传到我们的服务器是很麻烦的。原创 2024-09-05 23:41:44 · 677 阅读 · 0 评论 -
服务器/linux上登录huggingface网站
在服务器上使用 Hugging Face 的库时,如果需要访问私有模型或使用 Hugging Face 的 API,你可以通过命令来登录你的 Hugging Face 账户。原创 2024-09-05 23:12:33 · 613 阅读 · 0 评论 -
信息熵|atttion矩阵的注意力熵
这个示例展示了如何通过注意力图计算显著区域的熵值,并以此作为损失函数的一部分来优化模型。高熵表示模型对多个区域的注意力分散,低熵则表示模型对少数区域的关注更集中。在实际应用中,目标是通过最小化熵来鼓励模型专注于特定的显著区域。原创 2024-09-04 21:44:28 · 674 阅读 · 0 评论 -
信息熵 Information Entropy
不确定性:熵反映了一个随机变量的结果有多不确定。如果一个事件的结果是完全确定的(即只有一个可能的状态,概率为1),则熵为0,因为没有不确定性。如果每个事件的结果是完全随机的且所有结果的概率相等,则熵达到最大值。信息量:熵可以理解为获取一个随机变量的具体值所需要的平均信息量。随机变量的熵越大,意味着从中提取的信息量越多。简而言之,熵表示平均需要多少信息来准确描述这个系统。系统复杂性:在物理系统中,熵也可以表示系统的复杂性或混乱程度。原创 2024-09-03 20:57:29 · 431 阅读 · 0 评论 -
将传统ViT用于分割或检测任务
传统Vision Transformer (ViT) 模型主要用于图像分类任务,它的输出通常是图像的分类概率分布。x: 模型最终的输出是一个经过全连接层(self.head)处理后的向量,表示图像在预定类别中的概率分布(logits)。这个输出适用于图像分类任务。attn: 模型在最后一个Transformer块中计算的自注意力权重(self-attention weights)。这个输出可以用于可视化模型对输入图像各个部分的关注程度,但在一般的分类任务中,主要关注的是x部分的输出。原创 2024-09-02 16:34:02 · 435 阅读 · 0 评论 -
Layer Normalization(层归一化)里的可学习的参数
因此,层归一化是包含可训练参数的,这些参数可以在模型训练过程中学习和更新。这一点与批量归一化(Batch Normalization)相似,后者同样使用了可训练的缩放和偏移参数,但归一化的范围和计算方式有所不同。在深度学习模型中,层归一化(Layer Normalization, 简称LN)是一种常用的技术,用于稳定和加速神经网络的训练。通过这些可训练的参数,层归一化不仅能帮助模型控制内部数据的分布,还能适应数据的具体特征,这对于模型的泛化能力和学习效率都是非常重要的。:这是层归一化中可训练的部分。原创 2024-08-29 21:26:57 · 479 阅读 · 0 评论 -
关于Pytorch 分布式训练local_rank的坑
的时候会发现他们在 argsparse 中添加了这样一个参数“--loacl_rank”,比如下面是Swin-Transformer官方训练源码中cmd参数声明的一个部分,可以看到第70行添加了一个"“--local_rank”。大概意思就是说,声明“--use_env”后,pytorch会将当前进程在本机上的rank添加到环境变量“LOCAL_RANK”中,而不再添加到args.local_rank。现在命令行参数“--loacl_rank”的问题解决了,还以一个问题,就是还有很多大佬的代码在。转载 2024-08-18 15:20:27 · 174 阅读 · 0 评论 -
网络安全: 模型的脆弱性,鲁棒性和隐私性
因此,在描述 Transformer 模型时,如果你要强调其在网络安全方面的保护能力,可以用“脆弱性、鲁棒性和隐私性”这三个特性来更准确地传达其安全方面的考量。:指保护模型或其训练数据免受信息泄露的能力。隐私性问题在联邦学习和其他分布式学习场景中特别重要,因模型参数的共享可能导致信息泄露。:指模型在某些情况下容易受到攻击或被利用的弱点。例如,模型可能对对抗性攻击或梯度泄露攻击敏感。:指模型抵御攻击和在恶劣环境下保持性能的能力。提高模型的鲁棒性是增强其抵御攻击能力的关键。原创 2024-08-16 22:31:39 · 335 阅读 · 0 评论 -
Interpret the Explained Variance in PCA
原文:What is the Explained Variance in PCA (Python Example) - JC Chouinard原创 2024-08-16 20:06:46 · 172 阅读 · 0 评论 -
freeze 冻结所有参数
【代码】freeze 冻结所有参数。原创 2024-08-15 20:20:43 · 104 阅读 · 0 评论 -
vscode的lanuch.json模板
【代码】vscode的lanuch.json模板。原创 2024-08-15 15:52:17 · 163 阅读 · 0 评论 -
关于Google Drive 大文件下载
尝试了gdrive和gdown,不知道是哪里安装出错了还是怎么的,都没有成功,直接找到了哥们的博客,好家伙,他已经下载51G成功了,那我也试一试。直接下载插件,并且自动成为谷歌浏览器的扩展。转载 2024-08-13 18:50:18 · 152 阅读 · 0 评论 -
Predictor 代码详解(Segment Anything Model)
转载:https://zhuanlan.zhihu.com/p/681902528原创 2024-08-02 17:32:35 · 288 阅读 · 0 评论 -
数学表达符号⊙
1. ⊙ 两个矩阵之间的对应元素相乘。两个矩阵的行列相同( shape相同)原创 2024-08-02 15:42:24 · 130 阅读 · 0 评论 -
MOE混合专家模型详解
GateNet可以理解为一个分配器,根据输入样本的特征,动态决策将其分配给哪个专家进行处理。GateNet的输出值表示了每个专家的权重。在语言模型应用过程中,当输入数据通过MoE层的时候,每个token都有GateNet分配在最适合处理的专家模型身上。而在分配策略的确定方面,可以采用不同的注意力机制或者引入一些。MoE 之所以脱颖而出,是因为它动态地确定哪个“专家”应该处理给定的输入,这与依赖静态规则来组合输出的传统集成不同。的提取和分配策略的确定。在特征的提取方面,常用的方法是使用。原创 2024-07-27 14:31:31 · 295 阅读 · 0 评论 -
store_true
是一种特殊的动作标志,用于处理布尔选项。时,如果命令行中包含了对应的参数,该参数的值将被设置为。如果没有包含该参数,则值为。在 Python 的。原创 2024-07-22 21:24:51 · 276 阅读 · 0 评论 -
Zip压缩文件(Linux)
archive.zip 压缩完后的文件名。folder/ 把该文件夹厘的文件压缩。原创 2024-07-17 20:15:13 · 135 阅读 · 0 评论 -
混合专家模型(MoE)From Sparse to Soft Mixtures of Experts
在稀疏专家模型中,每次只激活一部分专家,从而减少计算量。常见的方法是使用门控网络(Gating Network)来选择哪些专家被激活。这种方法的一个主要问题是梯度不连续和训练不稳定性。原创 2024-07-15 09:42:19 · 578 阅读 · 0 评论 -
基于transformer的基因表达预测
好的,以下是一个更具体的例子,结合数据和图像来解释基因表达预测是如何进行的。假设我们有一个包含1000个基因的基因表达数据集,每个基因在不同条件下(例如不同的实验处理或不同的时间点)的表达水平已经被测量。我们用这些数据来训练一个改进的Graph-Transformer模型。原创 2024-07-10 14:12:24 · 421 阅读 · 1 评论 -
LoRA Meets Dropout under a Unified Framework
转载:https://zhuanlan.zhihu.com/p/706127515原创 2024-07-09 22:48:33 · 406 阅读 · 0 评论 -
git clone项目并安装对应package
拿github上的SD Lora项目举例子:参考:原创 2024-07-06 02:41:05 · 256 阅读 · 2 评论 -
LORA的工作原理
https://mp.weixin.qq.com/s/bkY6PwCIb1B-HTDzxLHcjQ原创 2024-07-06 02:12:11 · 92 阅读 · 0 评论 -
Patch embed 的映射矩阵多大?
原创 2024-07-03 21:33:57 · 323 阅读 · 0 评论 -
Patch embed 的映射矩阵多大?
如果具体举个例子,假设一个图像的大小为 (224 \times 224 \times 3),每个 patch 的大小为 (16 \times 16),embedding dimension (D) 为 768。假设我们有一个图像,其大小为 (H \times W \times C),其中 (H) 是图像的高度,(W) 是图像的宽度,(C) 是图像的通道数(例如,RGB 图像的通道数为 3)。原创 2024-07-03 21:24:44 · 344 阅读 · 0 评论 -
MAE代码粗略解读
结合了视觉Transformer作为骨干网络的Masked Autoencoder。原创 2024-07-01 20:09:19 · 982 阅读 · 0 评论 -
RoPE(Rotary Position Embedding)广泛理解
在Transformer架构中,对于输入的每个token,都会有一个与其位置对应的RoPE位置编码。这个编码是通过一个固定的公式计算得出的,而不是通过模型学习得到的。综上所述,RoPE位置编码是通过计算得出的,而不是学出来的。它通过特定的计算方式将位置信息嵌入到模型中,使得模型能够更好地处理序列数据中的位置关系。由于RoPE是一种相对位置编码,它克服了绝对位置编码无法泛化到训练时未见过的位置的缺点。RoPE将位置信息以旋转矢量的形式嵌入到模型中,使得模型能够更自然地处理序列数据中的位置关系。原创 2024-06-20 00:28:24 · 301 阅读 · 0 评论 -
Tpami投稿注意事项
IEEE论文投稿流程(格式说明,新手指南,模板) - BeyondSelf的文章 - 知乎。转载 2024-06-17 20:14:24 · 164 阅读 · 0 评论 -
孪生网络(Siamese Networks)和对比学习(Contrastive Learning)
孪生网络(Siamese Networks)和对比学习(Contrastive Learning)虽然在某些方面有相似之处,但它们并不完全相同。原创 2024-06-15 14:18:58 · 1485 阅读 · 0 评论 -
计算机(DL)基本术语
如:假设一个模型初始的准确率是75%,经过改进之后,准确率提升到82%。1. 提升来多少点。这个点是指百分比点。因此,提升了7个点。原创 2024-06-12 09:48:09 · 206 阅读 · 0 评论 -
DL调参技巧
深度学习调参有哪些技巧?_深度学习中的调参-CSDN博客原创 2024-06-11 10:54:26 · 355 阅读 · 0 评论 -
使用wordnet对句子数据增强
【代码】使用wordnet对句子数据增强。原创 2024-06-11 10:26:50 · 365 阅读 · 0 评论 -
词向量对模型performance的影响
因为自己搭建了一个4层的transformer网络,然后词向量的维度是96(attention is all you need里面transformer block的dim=512),这里设置96是为了后续我需要做一些attack的任务。然后使用transformer4对YELP(5分类)分类的时候,performance一直在58%上下波动,尝试了各种调参发现都上不了60%。后面都要尝试用预训练的embedding了。但=结果调了一下embedding 96->128。ACC 就上升了。原创 2024-06-09 17:57:21 · 194 阅读 · 0 评论 -
model.eval()
会改变 Batch Normalization 层的行为,但并不会完全禁用它们。Batch Normalization 在训练阶段使用。,而在评估或推理阶段,使用的是整个训练数据集的统计数据(即运行中的均值和方差),这些统计数据是在训练过程中累积下来的。Batch Normalization 层会切换到评估模式。会关闭 Dropout 层,因为在评估或推理阶段,model.eval() 开启后,Dropout 层会被禁用。原创 2024-06-05 11:48:51 · 290 阅读 · 0 评论 -
Python的日志logging配置
【代码】Python的日志logging配置。原创 2024-06-01 17:04:26 · 248 阅读 · 1 评论 -
使用torch.bincount计算标签的重叠度
将这些差异相加得到总的绝对差异,然后除以标签总数的两倍。在这个例子中,总的绝对差异为。将两个张量的计数相减,并取绝对值。原创 2024-05-30 19:10:16 · 187 阅读 · 0 评论 -
归纳偏置 (Inductive Bias)
转载:【机器学习】浅谈 归纳偏置 (Inductive Bias)-CSDN博客原创 2024-05-29 23:25:57 · 217 阅读 · 0 评论