- 博客(7)
- 资源 (3)
- 收藏
- 关注
原创 Transformer文档
1.Transformerhttps://pytorch.org/docs/master/generated/torch.nn.Transformer.html#torch.nn.Transformer
2021-07-15 17:03:35 517
转载 nn.KLDivLoss(2)
import torch import torch.nn as nn import numpy as np # ----------------------------------- KLDiv loss loss_f = nn.KLDivLoss(size_average=False, reduce=False) loss_f_mean = nn.KLDivLoss(size_average=True, reduce=Tru...
2021-07-09 21:10:36 615
转载 torch.nn.KLDivLoss(1)
loss = nn.KLDivLoss(reduce=False)batch_size = 5log_probs1 = F.log_softmax(torch.randn(batch_size, 10), 1)probs2 = F.softmax(torch.randn(batch_size, 10), 1)loss(log_probs1, probs2) / batch_size
2021-07-09 21:01:00 1069
转载 pytorch .detach() .detach_() 和 .data用于切断反向传播
参考:https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-autograd/#detachsource当我们再训练网络的时候可能希望保持一部分的网络参数不变,只对其中一部分的参数进行调整;或者值训练部分分支网络,并不让其梯度对主网络的梯度造成影响,这时候我们就需要使用detach()函数来切断一些分支的反向传播1 detach()[source]返回一个新的Variable,从当前计算图中分离下来的,但是仍..
2021-07-09 20:15:11 319
原创 scatter_()函数的详细介绍
一、函数介绍scatter_(input, dim, index, src):将src中数据根据index中的索引按照dim的方向填进input。可以理解成放置元素或者修改元素 dim:沿着哪个维度进行索引index:用来 scatter 的元素索引src:用来 scatter 的源元素,可以是一个标量或一个张量二、实现原理x = torch.rand(2, 5) #tensor([[0.1940, 0.3340, 0.8184, 0.4269, 0.5945],# ...
2021-07-09 09:16:21 222
原创 nn.Embedding中padding_idx的理解
每个句子的长度并不一定是等长的, 这时候就需要对较短的句子进行padding, nn.Embedding中padding_idx是指定padding的索引值。#实例化词嵌入对象,序列进行padding时补padding_idx。当采用补0的方式,padding_idx =0#这里的词空间大小为5,词嵌入维度大小为7embeder = nn.Embedding(5,7,padding_idx=0)print(embeder.weight) #padding_idx的位置为全0print('*.
2021-07-08 16:58:28 2316 1
转载 标签平滑(label smoothing)
5. 参考博客https://www.cnblogs.com/whustczy/p/12520239.htmlhttps://blog.csdn.net/Matrix_cc/article/details/105344967
2021-07-08 09:31:52 188
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人