深度学习
湮尘XJ
这个作者很懒,什么都没留下…
展开
-
Pytorch模型存储的两种方式
Pytorch模型存储的两种方式1保存整个网络结构信息和模型参数信息torch.save(model_object, './model.pth')直接加载即可使用model = torch.load('./model.pth')2只保存网络的模型参数-推荐torch.save(model_object.state_dict(), './params.pth')加载则要先从本地网络模块倒入网络,然后再加载参数from models import AgeModelmodel = AgeM原创 2021-03-16 22:02:16 · 235 阅读 · 0 评论 -
深度学习常用损失函数
https://www.cnblogs.com/wanghui-garcia/p/10862733.html转载 2021-02-06 22:29:03 · 74 阅读 · 0 评论 -
交叉熵损失函数
https://www.jianshu.com/p/23623fe17f64转载 2021-01-28 16:19:11 · 112 阅读 · 0 评论 -
Transformer--Add&Normalize
归一化transformer在进行self-Attention之后会进行一个layerNormalization 【将数据统一到固定区间内】其中又分为batchNormalization和layerNormalizationbatchNormalization 即按照batch维度化成均值为0标准差为1的数据Layer则是纵向将每次的向量数据进行归一化残差作用:加入未学习的原向量使得到的结果的效果至少不弱于原来的结果...原创 2021-01-02 17:19:04 · 2375 阅读 · 1 评论 -
Transformer--Multi-headed机制
在Transformer中一组q,k,v可以得到一种当前词在句中的表达,那么多组就能得到多种表达,从而得到更为精确的词表达原创 2021-01-02 16:32:18 · 471 阅读 · 0 评论 -
Transform
Transform顺序序列数据常用RNN进行训练,但是RNN又难以平行化,故催生出Attention机制的Transform如图通过Self-Attention Layer可以平行化处理得到bi其中bi包含了整个序列的按权压缩的信息该概念最早出现在google的一篇paper中【Attention is all you need】首先我们将输入乘上一个matrix得到我们想要唯独的ai之后分别乘以wq,wk,wv得到qi,ki,vi其中qi可以看作询问,而ki则是被询问者详细可见如下图 d是原创 2021-01-02 14:52:58 · 176 阅读 · 0 评论 -
model.zero_grad(),optimizer.zero_grad(),Variable.grad.data.zero_()
将模型参数梯度设置为0model.zero_grad()optimizer.zero_grad()#当optimizer=optim.Optimizer(model.parameters())时,两者等效单一变量Variable梯度设置为0Variable.grad.data.zero_()原创 2020-11-10 10:27:33 · 421 阅读 · 0 评论