我用的是mxnet包里面的自动求梯度的模块autograd。
一、在autograd下求梯度一般要进行一下几个步骤:
1、调用attach_grad()函数来申请存储梯度所需要的内存。要对一个函数求关于某个变量求梯度就用那个变量名来调用attach_grad()函数,如
y
=
x
T
x
y={x}^\mathsf{T}{x}
y=xTx求有关变量x的梯度,则:
x.attach_grad()
2、调⽤record函数来要求MXNet记录与求梯度有关的计算。原因是为了减少计算和内存开销,默认条件下MXNet不会记录⽤于求梯度的计算,所以需要自己要求。使用方法是比如对函数y求梯度:
with autograd.record():
y = 2 * nd.dot(x.T, x)
3、求梯度。如 y = x T x y={x}^\mathsf{T}{x} y=xTx关于 x x x的梯度应该是 4 x 4x 4x:
x.grad
二、例子
我们给上面的
x
x
x赋值
x
=
[
0
,
1
,
2
,
3
]
T
x=[0,1,2,3]^\mathsf{T}
x=[0,1,2,3]T,并按照上面的步骤求出它的梯度:
from mxnet import autograd, nd
x = nd.arange(4).reshape((4, 1))
x.attach_grad()
with autograd.record():
y = 2 * nd.dot(x.T, x)
y.backward()
print(x.grad)
运行结果如下所示:
[[ 0.]
[ 4.]
[ 8.]
[ 12.]]