pytorch使用笔记

使用pytorch时,有一些值得注意的地方,记录如下:

tensor和variable

  • tensor表示张量:一般情况下,一维tensor叫向量,二维tensor叫矩阵,多维tensor叫张量
  • variable表示变量:实际上,是一个tensor的高级封装,同时包含了梯度值,且同一个变量的梯度值是累计更新的,需要手动清零。默认设置requires_grad=False
  • parameter表示参数:其实是variable 的一种,一般情况下用于模型参数变量,训练过程中,可以使用parameters统一收集模型的所有参数进行更新。默认设置requires_grad=True

resize和view

使用中,可以发现resize和view均可以实现tensor的形状变换。但它们仍然有区别:resize调用中存在拷贝内存操作,即不改变原变量,在新内存空间创建新变量;而view直接在原内存空间进行变换。

requires_grad和viloate

上文中提到了变量可以计算梯度,当然,对于某些预训练的参数,也可以手动设置不计算。requires_gradviloate均可以实现。区别如下:

  • requires_grad只限制当前节点梯度计算。该值取False时不需要计算梯度,不同变量运算后,该值取或
  • viloate可以限制当前节点及子节点梯度计算。该值取True时不需要计算梯度,不同变量运算后,该取或

建议在predict时设置viloate=True,能够有效降低显存占用,避免梯度存储

损失函数

pytorch中交叉熵损失函数CrossEntropyLoss相当于logsoftmax+NLLoss,与标准交叉熵函数相比,多了一个softmax步骤。
而负对数似然损失函数NLLoss要求输入的是对数概率,即该函数实际上只是取反而已。

初始化

默认情况下,pytorch中lstm、linear等结构均使用uniform初始化权重,如有需要,可手动使用正交初始化等方法。

注:很多模型从kera等迁移而来,如果性能达不到理想效果,可尝试更改初始化方法

new方法

一般而言,可以直接使用torch.tensor初始化一个Tensor,但这样只是在cpu上创建数据。如果需要根据当前使用情况自适应创建tensor到cpu或gpu,可以尝试input.new这种方式,new方法将会创建一个和input数据类型相同的tensor。

training参数

Module中training参数用于指示当前处于训练阶段,还是测试阶段。对于dropout和batch normalization等方法来说,训练与测试的forward有所区别。

显存管理

torch.cuda.empty_cache 调用可以手动清除显存,使用前应该先使用del删除变量引用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值