假设我们想对函数y = 2xTx,关于列向量x求导。并对x赋予初值。
在我们计算y 关于x 的梯度之前,我们需要一个地方来存储梯度。 重要的是,我们不会在每次对一个参数求导时都分配新的内存。 因为我们经常会成千上万次地更新相同的参数,每次都分配新的内存可能很快就会将内存耗尽。
我们通过调用反向传播函数来自动计算y
关于x
每个分量的梯度,并打印这些梯度。
默认情况下,会累积梯度,所以在求另一个函数的梯度时要进行清零操作 。
当将清零代码进行注释时,
假设我们想对函数y = 2xTx,关于列向量x求导。并对x赋予初值。
在我们计算y 关于x 的梯度之前,我们需要一个地方来存储梯度。 重要的是,我们不会在每次对一个参数求导时都分配新的内存。 因为我们经常会成千上万次地更新相同的参数,每次都分配新的内存可能很快就会将内存耗尽。
我们通过调用反向传播函数来自动计算y
关于x
每个分量的梯度,并打印这些梯度。
默认情况下,会累积梯度,所以在求另一个函数的梯度时要进行清零操作 。
当将清零代码进行注释时,