自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(311)
  • 收藏
  • 关注

原创 store_true

是一种特殊的动作标志,用于处理布尔选项。时,如果命令行中包含了对应的参数,该参数的值将被设置为。如果没有包含该参数,则值为。在 Python 的。

2024-07-22 21:24:51 68

原创 Zip压缩文件(Linux)

archive.zip 压缩完后的文件名。folder/ 把该文件夹厘的文件压缩。

2024-07-17 20:15:13 107

原创 einsum计算

你可以简洁而高效地表达复杂的张量运算,这在科学计算和机器学习中尤为有用。因此,这个操作实际上是矩阵乘法。表示计算两个向量的外积,生成一个 3x4 的矩阵。表示将两个一维向量的对应元素相乘并求和,即内积。表示计算矩阵 A 的对角元素之和,即迹。表示将矩阵 A 的第一个维度。表示 A 的第一个维度。交换,从而实现矩阵转置。与 B 的第二个维度。

2024-07-15 10:05:35 216

原创 混合专家模型(MoE)From Sparse to Soft Mixtures of Experts

在稀疏专家模型中,每次只激活一部分专家,从而减少计算量。常见的方法是使用门控网络(Gating Network)来选择哪些专家被激活。这种方法的一个主要问题是梯度不连续和训练不稳定性。

2024-07-15 09:42:19 348

原创 基于transformer的基因表达预测

好的,以下是一个更具体的例子,结合数据和图像来解释基因表达预测是如何进行的。假设我们有一个包含1000个基因的基因表达数据集,每个基因在不同条件下(例如不同的实验处理或不同的时间点)的表达水平已经被测量。我们用这些数据来训练一个改进的Graph-Transformer模型。

2024-07-10 14:12:24 310 1

原创 LoRA Meets Dropout under a Unified Framework

转载:https://zhuanlan.zhihu.com/p/706127515

2024-07-09 22:48:33 380

原创 git clone项目并安装对应package

拿github上的SD Lora项目举例子:参考:

2024-07-06 02:41:05 215 2

原创 LORA的工作原理

https://mp.weixin.qq.com/s/bkY6PwCIb1B-HTDzxLHcjQ

2024-07-06 02:12:11 72

原创 Patch embed 的映射矩阵多大?

2024-07-03 21:33:57 312

原创 Patch embed 的映射矩阵多大?

如果具体举个例子,假设一个图像的大小为 (224 \times 224 \times 3),每个 patch 的大小为 (16 \times 16),embedding dimension (D) 为 768。假设我们有一个图像,其大小为 (H \times W \times C),其中 (H) 是图像的高度,(W) 是图像的宽度,(C) 是图像的通道数(例如,RGB 图像的通道数为 3)。

2024-07-03 21:24:44 329

原创 MAE代码粗略解读

结合了视觉Transformer作为骨干网络的Masked Autoencoder。

2024-07-01 20:09:19 883

原创 RoPE(Rotary Position Embedding)广泛理解

在Transformer架构中,对于输入的每个token,都会有一个与其位置对应的RoPE位置编码。这个编码是通过一个固定的公式计算得出的,而不是通过模型学习得到的。综上所述,RoPE位置编码是通过计算得出的,而不是学出来的。它通过特定的计算方式将位置信息嵌入到模型中,使得模型能够更好地处理序列数据中的位置关系。由于RoPE是一种相对位置编码,它克服了绝对位置编码无法泛化到训练时未见过的位置的缺点。RoPE将位置信息以旋转矢量的形式嵌入到模型中,使得模型能够更自然地处理序列数据中的位置关系。

2024-06-20 00:28:24 214

转载 Tpami投稿注意事项

IEEE论文投稿流程(格式说明,新手指南,模板) - BeyondSelf的文章 - 知乎。

2024-06-17 20:14:24 48

原创 孪生网络(Siamese Networks)和对比学习(Contrastive Learning)

孪生网络(Siamese Networks)和对比学习(Contrastive Learning)虽然在某些方面有相似之处,但它们并不完全相同。

2024-06-15 14:18:58 1013

原创 计算机(DL)基本术语

如:假设一个模型初始的准确率是75%,经过改进之后,准确率提升到82%。1. 提升来多少点。这个点是指百分比点。因此,提升了7个点。

2024-06-12 09:48:09 132

原创 DL调参技巧

深度学习调参有哪些技巧?_深度学习中的调参-CSDN博客

2024-06-11 10:54:26 337

原创 使用wordnet对句子数据增强

【代码】使用wordnet对句子数据增强。

2024-06-11 10:26:50 349

原创 词向量对模型performance的影响

因为自己搭建了一个4层的transformer网络,然后词向量的维度是96(attention is all you need里面transformer block的dim=512),这里设置96是为了后续我需要做一些attack的任务。然后使用transformer4对YELP(5分类)分类的时候,performance一直在58%上下波动,尝试了各种调参发现都上不了60%。后面都要尝试用预训练的embedding了。但=结果调了一下embedding 96->128。ACC 就上升了。

2024-06-09 17:57:21 174

原创 model.eval()

会改变 Batch Normalization 层的行为,但并不会完全禁用它们。Batch Normalization 在训练阶段使用。,而在评估或推理阶段,使用的是整个训练数据集的统计数据(即运行中的均值和方差),这些统计数据是在训练过程中累积下来的。Batch Normalization 层会切换到评估模式。会关闭 Dropout 层,因为在评估或推理阶段,model.eval() 开启后,Dropout 层会被禁用。

2024-06-05 11:48:51 209

原创 SIMCSE用与有监督和无监督训练的训练代码模版

SIMCSE(Simple Contrastive Learning of Sentence Embeddings)是一种用于生成句子嵌入的方法,既可以进行有监督训练,也可以进行无监督训练。以下是两个代码模板,分别展示了如何进行有监督和无监督的SIMCSE训练。

2024-06-05 09:46:26 307

原创 Python的日志logging配置

【代码】Python的日志logging配置。

2024-06-01 17:04:26 199 1

原创 使用torch.bincount计算标签的重叠度

将这些差异相加得到总的绝对差异,然后除以标签总数的两倍。在这个例子中,总的绝对差异为。将两个张量的计数相减,并取绝对值。

2024-05-30 19:10:16 174

原创 归纳偏置 (Inductive Bias)

转载:【机器学习】浅谈 归纳偏置 (Inductive Bias)-CSDN博客

2024-05-29 23:25:57 201

原创 evaluate.load(metric)和dataset.load_metric(metric)

和是两个不同的库中用于加载评估指标的方法,分别属于evaluate库和datasets库。它们虽然功能相似,但在使用场景和细节上有一些区别。库是 Hugging Face 提供的一个专门用于评估模型性能的库。用于加载预定义的或自定义的评估指标。

2024-05-29 11:40:23 474

原创 clip_grad_norm_ 梯度裁剪

函数是用来对模型的梯度进行裁剪的。在深度学习中,经常会使用梯度下降算法来更新模型的参数,以最小化损失函数。然而,在训练过程中,梯度可能会变得非常大,这可能导致训练不稳定甚至梯度爆炸的情况。裁剪梯度的作用是限制梯度的大小,防止它们变得过大。裁剪梯度的常见方式是通过计算梯度的范数(即梯度向量的长度),如果梯度的范数超过了设定的阈值,则对梯度向量进行缩放,使其范数等于阈值。对模型的参数的梯度进行裁剪,限制其范数为1.0。这有助于防止梯度爆炸,提高训练的稳定性。

2024-05-28 16:44:20 272

原创 pytorch 中bincount()函数详解

计算统计的频次,即,0对应的标签0个,以此类推,1:1个,2:2个,3:3个,4:0个,5:0个,6:0个,7:0个,8:0个,9:0个,10:1个。值的出现次数,如图中节点的批次信息、类别标签等。它可以帮助我们快速计算每个值的计数,而无需手动编写循环或其他复杂的逻辑。

2024-05-26 14:11:41 265

原创 GPT-2添加PAD token

GPT-2和GPT-3模型(包括其他类似系列)通常没有内置的PAD token,因为它们主要用于生成任务,而这些任务通常不需要填充。然而,在一些特定任务(如批量处理或序列对齐)中,添加PAD token是必要的。

2024-05-25 12:08:34 549

原创 用nn.Sequential实现图像的数据增强(augmentations)

【代码】用nn.Sequential实现图像的数据增强(augmentations)

2024-05-25 09:44:33 372

原创 huggingface的load_dataset()函数

等于相关数据集的名字就能下载并加载相关数据集。

2024-05-24 17:02:08 526

原创 梯度攻击和后门攻击

梯度攻击利用模型的梯度信息进行攻击,主要包括对抗攻击和梯度反演攻击。

2024-05-22 13:14:41 388

原创 报错:RuntimeError: can‘t retain_grad on Tensor that has requires_grad=False

叶子节点:只有定义的 Tensor 参数才是叶子节点;只有 requires_grad=True 和叶子节点 is_leaf=True 才有 grad 的值。

2024-05-21 14:24:55 128

原创 彻底解决:One of the differentiated Tensors appears to not have been used in the graph. Set allow_unused=

上面报错是因为在手动求梯度的时候,网络里面有初始化后的权重,但是没有用到,所以就会显示为:在用该网络得到的loss与输入求Loss的时候就报改错。1. 首先对手动求梯度加上属性:allow_unused=True(这不能解决根本问题,只是为了找到错误)2. 使用key,value来迭代输出model.parameter中的哪个权重层是空tensor即可。几行代码,让你直接找到空的tensor(找到空的权重层),不用一个一个取分析网络了!对这个报错已经很多次了,可以说是相当熟练了。

2024-05-16 01:25:49 689 3

转载 pytorch 笔记: 扩展torch.autograd

转载:pytorch 笔记: 扩展torch.autograd_扩展 pytorch autograd-CSDN博客

2024-05-14 19:36:41 12

转载 Huggingface Evaluate包使用小坑

转载:Huggingface Evaluate包使用小坑_evaluate huggingface-CSDN博客

2024-05-14 15:58:13 22

原创 randperm函数打乱索引的用法

randperm,用于生成一个随机排列。这个函数可以被用于许多需要随机排列的情况,如数据集的划分、模型的训练等等。通过randperm函数,你可以得到一个随机的、不重复的排列。将一个向量a随机打乱。

2024-05-13 18:44:51 231

原创 bert 的MLM框架任务-梯度累积

【代码】bert 的MLM框架任务。

2024-05-12 22:50:54 317

原创 nonzero() 返回非0元素的索引

也可用作:(xx==103).nonzero() :返回xx列表中值为103的索引。注意,可以随机应变,但是返回的是。nonzero() 返回非0元素的索引。

2024-05-12 21:39:52 112

转载 BERT模型参数量计算

token embedding参数:30522(词汇量)* 768(隐藏层大小)position embedding参数:512(文本输入最长大小)* 768(隐藏层大小)segment embedding参数:2(0和1区分上下句)* 768(隐藏层大小)故,词向量总参数量 = (30522 + 512 + 2)* 768 = 22.7 MBQ K V 权重矩阵尺寸:768 * 64(多头注意力机制下)O 的权重矩阵:768 * 768。

2024-05-11 19:23:38 475

原创 pytorch版本的bert模型代码(MLM)

【代码】pytorch版本的bert模型代码(MLM)

2024-05-11 19:07:45 186

原创 bert 微调合集

暂时没有时间总结,先贴上几个还不错的帖子。

2024-05-05 10:41:13 330

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除