最近发现使用pytorch的人越来越多,特别是github上,所以学了以下,发现非常的简便。其中也遇到了一些问题,所以就对我自己感兴趣的问题和知识做一个记录。
本篇主要讲解Pytorch中Tensor和Variable的用法。
Tensor的用法
torch中的tensor跟numpy的array很像,但是tensor可以在GPU中加速运算,同时两者具有良好的兼容性。
import torch
x = torch.arange(1,5).reshape(2,2)
print(x)
print(x.sum(axis=1))
#与numpy相互转换
x_array = x.numpy()
print(x_array)
x = torch.tensor(x_array)
print(x)
从上面的代码可以看出array和tensor用法基本相同,函数的使用有相当大的出入,并且可以非常方便的转换。
Variable的用法
Variable就是一个存放会变化的值的地理位置, Torch 的 Tensor就是里面的值。Variable和Tensor最大的不同是它可以计算梯度,并且反向传播,通过一个个的Variable相互连接构成计算图。
#构造Variable
import torch
from torch.autograd import Variable
tensor = torch.arange(1,5).reshape(2,2)
#设置requires_grad为True,允许该变量反向传播
variable = Variable(tensor, requires_grad=True)
接下来简单的构建计算图,搞清楚Variable到底是怎么回事,反向传播如何控制。
x1 = torch.Tensor([1,2,3,4])
x1 = Variable(x1, requires_grad=True)
y1 = x1*x1
y2 = Variable(torch.Tensor([1,2,3,4]), requires_grad=True)
z = torch.sum(y1*y2)
print(x1.grad)
print(y2.grad)
#从z开始反向传播
print("反向传播之后")
z.backward()
print(x1.grad)
print(y2.grad)
#结果:
#None
#None
#反向传播之后
#tensor([ 2., 8., 18., 32.])
#tensor([ 1., 4., 9., 16.])
可以清楚的看到x1,y1刚开始是没有梯度的,到对z反向求导后,就有了梯度。注意这里只是有了梯度数值,还并没有使用这些梯度。
我们把其中y2的梯度取消的话,y2的梯度就会为None
x1 = torch.Tensor([1,2,3,4])
x1 = Variable(x1, requires_grad=True)
y1 = x1*x1
y2 = Variable(torch.Tensor([1,2,3,4]))
z = torch.sum(y1*y2)
print(x1.grad)
print(y2.grad)
#从z开始反向传播
z.backward()
print("反向传播之后")
print(x1.grad)
print(y2.grad)
#结果:
#None
#None
#反向传播之后
#tensor([ 2., 8., 18., 32.])
#None
同时这里有一个细节问题,就是y1的的状态,看一下:
print(y1.grad)
print(y1.requires_grad)
#None
#True
y1的梯度值是空的,y1.requires_grad为True。其实不难理解,因为y1的值是由x1决定的,不需要梯度下降,它只需要把下游的梯度值交给上游就行了。
好了,可以看到这就是torch的tensor和Variable,非常的简便,并且也很容易上手,毕竟跟numpy挺像的