使用pytorch时,有一些值得注意的地方,记录如下:
tensor和variable
- tensor表示张量:一般情况下,一维tensor叫向量,二维tensor叫矩阵,多维tensor叫张量
- variable表示变量:实际上,是一个tensor的高级封装,同时包含了梯度值,且同一个变量的梯度值是累计更新的,需要手动清零。默认设置
requires_grad=False
- parameter表示参数:其实是variable 的一种,一般情况下用于模型参数变量,训练过程中,可以使用
parameters
统一收集模型的所有参数进行更新。默认设置requires_grad=True
resize和view
使用中,可以发现resize和view均可以实现tensor的形状变换。但它们仍然有区别:resize调用中存在拷贝内存操作,即不改变原变量,在新内存空间创建新变量;而view直接在原内存空间进行变换。
requires_grad和viloate
上文中提到了变量可以计算梯度,当然,对于某些预训练的参数,也可以手动设置不计算。requires_grad
和viloate
均可以实现。区别如下:
- requires_grad只限制当前节点梯度计算。该值取False时不需要计算梯度,不同变量运算后,该值取或
- viloate可以限制当前节点及子节点梯度计算。该值取True时不需要计算梯度,不同变量运算后,该取或
建议在predict时设置viloate=True,能够有效降低显存占用,避免梯度存储
损失函数
pytorch中交叉熵损失函数CrossEntropyLoss相当于logsoftmax+NLLoss,与标准交叉熵函数相比,多了一个softmax步骤。
而负对数似然损失函数NLLoss要求输入的是对数概率,即该函数实际上只是取反而已。
初始化
默认情况下,pytorch中lstm、linear等结构均使用uniform初始化权重,如有需要,可手动使用正交初始化等方法。
注:很多模型从kera等迁移而来,如果性能达不到理想效果,可尝试更改初始化方法
new方法
一般而言,可以直接使用torch.tensor初始化一个Tensor,但这样只是在cpu上创建数据。如果需要根据当前使用情况自适应创建tensor到cpu或gpu,可以尝试input.new这种方式,new方法将会创建一个和input数据类型相同的tensor。
training参数
Module中training参数用于指示当前处于训练阶段,还是测试阶段。对于dropout和batch normalization等方法来说,训练与测试的forward有所区别。
显存管理
torch.cuda.empty_cache
调用可以手动清除显存,使用前应该先使用del
删除变量引用。