文章阅读
Automatic differentiation in PyTorch
主要内容
Pytorch是一个深度学习框架,提供了高性能的环境以及容易使用的自动微分模块,并能在不同设备上运行
Pytorch基于的一些项目
- Lua Torch
- Chainer
- HIPS Autograd
Pytorch的所基于项目的两个特性
- 动态,define-by-run execution
在静态图中,计算图需要预先定义,然后符号地得到微分,在运行时带入数据计算,而动态图可以提供了更灵活的微分方式,这样可以提供灵活的控制流程 - 即时,eager execution
一个eager framework在它带入实际数值时运行张量计算,而不是提前定义一个前向传播的计算图,计算图仅仅为了需要被微分的变量记录下来,不过这样做放弃了编译器对于整张图的优化
Pytorch的新特性
- 就地运算
- No tape,Pytorch采用的是reverse-mode automatic differentiation,而传统的这种方法需要记录一个tape来记录运算执行的顺序,而Pytorch摒弃了tape
- 核心算法由C++实现
接口
-
Variable flags
为不需要计算梯度的变量做标记,节约计算和存储资源,需要梯度的变量会被标记为require_grad=True
,对于任意输入变量若被标记为require_grad=True
,则输出变量也会自动标记为require_grad=True
-
Hooks
通过x.register_hook(lambda grad: print(grad))
来随时检查x的梯度 -
扩展
可以自定义微分操作 -
变量和它的转置等会共享内存