拿ESRGAN的实现代码举例:
一、更新生成器
- 若D_update_ratio==1,那么G和D之间是1:1的方式进行参数更新;若D_update_ratio==2,那么首先更新两次D再更新一次G。更新G的时候需要冻结D的梯度,避免其计算梯度耗费时间。
- 首先,fake_H是通过低分辨率的图像var_L经过netG生成,其require_grad为true。更新生成器的参数必须使用fake_H来回传梯度。因此在计算real_fea和pred_d_real时都需要使用detach对其进行分离,将其变为叶子节点,避免其在G中向后回传梯度。
- 注意:var_L和var_H本身就是用户使用dataloader获得的,因此是叶子节点,并且没有梯度,不会影响回传。例如l_g_pix中直接使用cri_pix计算损失,并没有detach。
- 尽管var_L是没有梯度的,但是经过netG之后fake_H是有梯度的。如果是输入有梯度,网络被冻结,输出仍然是有梯度的。两种情况是不一样的。
# G update G first
for p in self.netD.parameters():
p.requires_grad = False
self.optimizer_G.zero_grad()
self.fake_H = self.netG(self.var_L)
l_g_total = 0
if step % self.D_update_ratio == 0 and step > self.D_init_iters:
if self.cr