深度学习
文章平均质量分 66
一休Q_Q
大模型、机器学习、知识图谱、深度学习、自然语言处理
展开
-
pytorch中的zero_grad()函数的含义和使用
在反向传播计算时,梯度的计算是累加,但是每个batch处理时不需要和其它batch混合起来累加计算,所以对每个batch调用zero_grad将参数梯度置0。#如果不是每个batch清理依次梯度,而是两次或者多次清理,相当于提高了batch批次大小。optimizer.step()#更新参数,梯度被反向计算之后,调用函数进行所有参数更新。optimizer.zero_grad() ,用于将模型的参数梯度初始化为0。optimizer.zero_grad()#将模型参数梯度置为0;原创 2024-06-07 11:00:00 · 441 阅读 · 0 评论 -
conll-2012-formatted-ontonotes-5.0中文数据格式说明
CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。第二列是文档片段iid,大部分是0。其中,共指标记中,相同数字的表示同一指代簇。原创 2024-05-08 17:29:57 · 893 阅读 · 1 评论 -
指代消解类方法梳理
MLM:带遮罩的语言模型NSP:单句预测,任务包括两个输入序列SBO:分词边界目标。原创 2024-05-06 15:47:00 · 925 阅读 · 0 评论 -
corefBERT论文阅读
corefBERT语言表示模型,可以更好的捕获和表示共引用信息。corefBERT引入一种新的预训练任务MRP(mention refenrece prediction),MRP利用重复出现的提及获得丰富的共指关系。MRP使用掩码方法遮盖一个或者多个提及,模型预测被遮盖住的整个提及。根据上图,词的损失由MRP提及参考预测和MLM遮盖语言建模损失两部分构成。原创 2024-05-06 13:38:18 · 848 阅读 · 1 评论 -
指代消解原理
指代,在下文采用简称或者代称来代替上文已经出现的某一词语,语言学中把这种现象叫做指代现象。指代,是语言学中的一种语言现象,使用指代词来代替文本中已经出现的某个语言单元的表达方式。将代表同一实体的不同表述划分到一个等价集合的过程称为指代消解。指代消解在信息抽取、智能问答等任务中,具有十分重要的作用。原创 2024-04-30 18:07:23 · 602 阅读 · 0 评论 -
optim.lr_scheduler.StepLR学习
2.定义优化器: 创建一个优化器(如 SGD 或 Adam)并将模型的参数传递给它,近年来Adam使用较多。在训练循环中使用: 在每个训练迭代(或每个 epoch)结束时,调用学习率调度器的 step()方法。在 PyTorch 中,学习率调度器一般与优化器一起使用,实现在训练过程中动态调整学习率。3.定义学习率调度器StepLR: 创建一个学习率调度器,并将其与优化器关联。是 PyTorch 中的一个学习率调整器,按照一定的步长调整学习率。1.构建模型: 构建神经网络模型。原创 2024-04-24 10:50:55 · 523 阅读 · 0 评论 -
torch.nn.Embedding学习
padding_idx (python:int, optional) – 填充id,比如,输入长度为100,但是每次的句子长度并不一样,后面就需要用统一的数字填充,而这里就是指定这个数字,这样,网络在遇到填充id时,就不会计算其与其它符号的相关性。3.产出计算结果,送入网络的维度是[seq_len, batch_size],产出结果维度是[seq_len, batch_size,embedding_size],最后一个维度为词向量。1.随机初始化词向量层,构建二维表,存储语料中每个词的词向量;原创 2024-04-24 10:04:03 · 219 阅读 · 0 评论 -
Relu激活函数
激活函数,relu的整体效果较好原创 2024-04-19 09:16:51 · 991 阅读 · 0 评论 -
常用的np操作
给定一组 (xi, yi),其中 i = 1, 2, ..., n,而且 xi 是有序的,称为「标准点」。两个函数名称都是以 spl 开头,全称 spline (样条),可以理解这两个函数都和样条有关。1)输入:x为特征,y为目标变量. 2)输出:r: 相关系数 [-1,1]之间,p-value: p值。注: p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。rep:representation 的缩写,那么 splrep 其实生成的是一个「表示样条的对象」「风险平价」模型权重。原创 2024-04-19 15:04:44 · 355 阅读 · 0 评论 -
GELU激活函数
假设输入为X, mask为m,则m服从一个伯努利分布(Φ ( x ) \Phi(x)Φ(x), Φ ( x ) = P ( X < = x ) , X 服 从 标 准 正 太 分 布 \Phi(x)=P(X原创 2024-04-23 11:34:47 · 409 阅读 · 0 评论 -
SpanBert学习
根据集合分布,随机选择一段span的长度,之后根据均匀分布随机选择这一段的起始位置,然后按照长度进行遮盖。使用几何分布取p=0.2,最大长度为10,通过采样,平均遮盖长度为3.8个词的长度。2.SBO span boundary objective ,希望被遮盖span边界的词向量,能学习到span的内容。再训练时,取span前后边界的两个词,用这两个词向量加上span中被遮盖词的位置向量,预测原词。最后预测span中原值时计算新损失,即SBO目标的损失。将词向量和位置向量拼接起来,加两层全连接。原创 2024-04-23 17:17:46 · 844 阅读 · 1 评论 -
python yield含义
python下的yield含义原创 2022-11-03 11:33:02 · 287 阅读 · 1 评论 -
基于cnn和rnn的文本分类实践
本文主要介绍在文本分类中,使用CNN网络和RNN网络的实践,其中CNN又分为maxPool和k-maxpool。可以直接在juputer执行。代码已经上传githubhttps://github.com/yixiu00001/text-classify-cnn-rnn/blob/master/README.md1.CNN+maxPooltext-classification-cnn-maxpool...原创 2018-04-28 16:28:17 · 1774 阅读 · 1 评论 -
R-CNN+SPP-NET+Fast-R-CNN+Faster-R-CNN+YOLO+SSD阅读笔记
RCNN系列+spp-net+yolo+ssd阅读笔记原创 2016-08-23 16:28:16 · 8970 阅读 · 3 评论