自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Transformer

输入,嵌入层+位置编码---》送入编码区域(包含多头自注意力,add&norm,前馈层,add&norm)---》送入解码区(掩码多头子注意力机制,add&norm,跨注意力机制,add&norm前馈层,add&norm)---》线性转换,softmax,输出。

2024-10-21 18:25:34 603 1

原创 nn.Embedding维度的转变(RDCM)

应该写成下图中:34行那里self.embedding = nn.Embedding(self.vocab_size, self.embedding_dim)是词汇表的大小,也就是所有可能的单词或标记的数量。例如,如果你有一个包含10,000个唯一单词的词汇表,那么。原本代码是:第37行 self.load_embeddings()self.vocab_size = 1000:原本定义的。为100,那么每个单词将被表示为一个100维的向量。

2024-05-17 10:00:36 303

原创 关于加载预训练模型和参数

原本的代码5,6,7行是为了从网页上在线下载预训练好的模型,但是网络不允许,所以我们使用已经下载好的模型,为了方便,我们把下载好的预训练模型也放在model_path内了,9,10,11行是保存加载出来的模型。从本地文件夹加载模型即(model_path),还要加上备注local_files_only=true,不然还是默认从网页下载。这里model_name要与hugging face的模型名相对应,一定要是roberta-base,如果百年城roberta就会报错。模型代码原本是这样的。

2024-05-16 01:43:53 143 1

原创 CADA 论文代码简单修改

1. 该思路,从验证集中找最好模型参数,再用于测试集,得到最终结果,本来效果应该是不差的,主要的训练部分,没有改动,所以训练的效果应该差不太多,但是这里验证集比较小,可能选出来的所谓最好模型参数,并不是最好的,测试集的效果也就不好。由此数据集少的时候可以没有验证集。

2024-05-09 21:32:35 1593

原创 动量和学习率衰减

梯度下降,原本是使用当前 k 的参数 - 当前 k 的梯度乘以学习率,得到下一组更新的 k+1 参数。使用动量之后,与学习率相乘的不仅是当前 k 的梯度,也有 k 之前的梯度的整合,学习率乘以 k 之前的梯度,还有一部分当前 k 的梯度。换句话说,就是参数不仅沿着当前梯度的方向衰减,之前梯度的方向也会有衰减。

2024-05-05 22:22:59 312 2

原创 plt折线图不连续

控制台,调试发现,train_loss是不缺失的,train_loss的值是部分缺失的,正好对应间断点的地方,而loss应该是不会缺失的,所以合理推测,是loss在转化到train_loss的部分,出现了问题。2. 梯度爆炸或梯度消失,或lr过大导致的梯度更新太快,都会导致参数变化太快,loss突然很大或很小,loss变成nan或inf。如上,画出的折线图是不连续的,而且,运行了两次,每次图像间断的地方也是不同的。

2024-05-03 01:35:24 196 1

原创 都什么需要上传到gpu上

问题二:这个翻转层,没有to device,但是也能运行,应该是被跟着model上传到gpu了,所以,为什么翻转层可以跟着model上传,fc就不可以。在电脑上远程操作服务器时候,需要把模型和模型的输入上传到gpu上,model.to(device)问题一:为什么标绿这里要to device而上面predictor里的fc不需要上传也能运行。(下面的代码在服务器上跑通了)

2024-05-01 17:00:51 34

原创 服务器配置环境

运行上面一段后,出现了如下问题,blas是requirements里的第一个安装包,(把之前a开头的安装包删除了,以为是安装包的问题),可以看出单独pip install和requirement是一样的结果。所以由此,配置环境,也可以先安装一些一般都需要的包,比如matplotlib,scripy,scikit-learn,torch-geometric,torch-scatter,torch-sparse。一是,镜像源的问题,服务器的镜像源的修改需要找到镜像源的位置,然后再修改。可能会出现如下问题,

2024-04-29 20:43:05 1267

原创 GRL 梯度翻转层

​​​​​​​。

2024-04-24 16:34:36 2640

原创 leetcode-20 有效的括号

给定一个只包括'('')''{''}''['']'的字符串s,判断字符串是否有效。

2024-04-08 23:16:04 240

原创 leetcode-LCR 038. 每日温度

气温0[1,1,1,0][1,1,0]

2024-04-06 16:53:15 455 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除