sample():从概率分布中随机采样。所以,我们不能反向传播,因为它是随机的! (计算图被截断)。
请参阅torch.distributions.normal.Normal中示例的源代码:
def sample(self, sample_shape=torch.Size()):
shape = self._extended_shape(sample_shape)
with torch.no_grad():
return torch.normal(self.loc.expand(shape), self.scale.expand(shape))
torch.normal 返回随机数张量。此外,torch.no_grad() 上下文可以防止计算图进一步增长。
你看,我们不能反向传播。 Sample() 返回的张量仅包含一些数字,而不是整个计算图。
那么,rsample() 是什么?
通过使用 rsample,我们可以反向传播,因为它使计算图保持活动状态。
如何?通过将随机性放在单独的参数中。这称为“重新参数化技巧”。
rsample:使用重新参数化技巧进行采样。
源码中有eps:
def rsample(self, sample_shape=torch.Size()):
shape = self._extended_shape(sample_shape)
eps = _standard_normal(shape, dtype=self.loc.dtype, device=self.loc.device)
return self.loc + eps * self.scale
eps 是负责采样随机性的单独参数。
查看返回值:平均值 + eps * 标准差
eps 不依赖于您想要微分的参数。
所以,现在你可以自由地反向传播(=微分),因为当参数改变时 eps 不会改变。
(如果我们改变参数,重新参数化的样本的分布会因为 self.loc 和 self.scale 改变而改变,但 eps 的分布不会改变。)
请注意,采样的随机性来自于 eps 的随机采样。计算图本身不存在随机性。一旦选择了 eps,它就被固定了。 (eps 元素的分布在采样后是固定的。)
例如,在强化学习中的 SAC(Soft Actor-Critic)算法的实现中,eps 可能由与单个小批量动作相对应的元素组成(并且一个动作可能由许多元素组成)。