c++ vector向量直接赋值_vector-Jacobian product 解释 ---- pytorch autograd

最新推荐文章于 2023-07-04 23:04:13 发布

小状师张

最新推荐文章于 2023-07-04 23:04:13 发布

阅读量261

点赞数

文章标签： c++ vector向量直接赋值

本文链接：https://blog.csdn.net/weixin_31461519/article/details/112124433

版权

这篇文章将要解释pytorch autograd文档中的vector-Jacobian product。

文章由pytorch 官方文档中的这段话引出。

首先，雅各比矩阵J计算的是向量Y对于向量X的导数。这里假设向量X[x1,x2,...,xn]是某个model中的weight。而Y[y1,y2,...,yn]进而由X经过某个函数f产生。那么在backpropagation时，我们要求得就是这个雅各比矩阵J

那么为什么又要求vector-Jacobian product呢？

首先复习一下backpropagation

在进行backpropagation的过程，其实就是本层节点的导数与上流节点的导数的乘积。(local gradient * upstream gradient)

那么我们可以假设，在上面Y = f(X)的基础上，在引入一层：l = g(Y)，其中g是一个新的函数，l是标量。

那么由链式法则，我们可以知道，l对于X的导数即为l对于Y的导数与Y对于X的导数的乘积。

这里再假设，向量v就是l对于Y的导数。

那么，l对于X的导数就是：

上面的公式从右往左看，说明的问题就是：当我新增加一层l = g(Y)时，l关于X的导数直接用l关于Y的导数和之前代表导数的雅各比矩阵J进行乘法即可。这个乘法，就是vector-Jacobian product

至于为什么，l关于Y的导数只有一列，因为l是标量。

所以，pytorch函数backward()进行的就是vector-Jacobian product操作。backward的参数即为v，调用者即为Y。由于v就是l关于Y的导数，所以v和Y的形状要相同。若Y为标量，则不需要加参数。

x = torch.randn(3, requires_grad=True)

y = x * 2
while y.data.norm() < 1000:
    y = y * 2

print(y)

Out:

tensor([-1864.6609, -473.0628, 259.2955], grad_fn=<MulBackward0>)

v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)

print(x.grad)

Out:

tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])

y.backward()

Out:

RuntimeError: grad can be implicitly created only for scalar outputs

csdn链接：

CSDN-专业IT技术社区-登录blog.csdn.net

Reference：

pytorch autogradpytorch.org cs231nwww.youtube.com Medium towards datasciencetowardsdatascience.com

关注