如何理解pytorch中GAN的生成器与判别器的参数更新

最新推荐文章于 2024-09-26 19:24:27 发布

scut_lrr

最新推荐文章于 2024-09-26 19:24:27 发布

阅读量7.4k

点赞数 3

分类专栏： pytorch

本文链接：https://blog.csdn.net/weixin_42448226/article/details/108188971

版权

本文以ESRGAN为例，详细解释了在PyTorch中GAN训练过程中，生成器与判别器参数更新的策略。当D_update_ratio为1时，G和D同步更新；为2时，先更新D两次再更新G一次。在更新G时需冻结D的梯度，而在更新D时需解冻。文章还强调了detach操作在防止梯度回传中的作用，以及在批归一化处理中对梯度回传的特殊处理方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

拿ESRGAN的实现代码举例：

一、更新生成器

若D_update_ratio==1，那么G和D之间是1：1的方式进行参数更新；若D_update_ratio==2，那么首先更新两次D再更新一次G。更新G的时候需要冻结D的梯度，避免其计算梯度耗费时间。
首先，fake_H是通过低分辨率的图像var_L经过netG生成，其require_grad为true。更新生成器的参数必须使用fake_H来回传梯度。因此在计算real_fea和pred_d_real时都需要使用detach对其进行分离，将其变为叶子节点，避免其在G中向后回传梯度。
注意：var_L和var_H本身就是用户使用dataloader获得的，因此是叶子节点，并且没有梯度，不会影响回传。例如l_g_pix中直接使用cri_pix计算损失，并没有detach。
尽管var_L是没有梯度的，但是经过netG之后fake_H是有梯度的。如果是输入有梯度，网络被冻结，输出仍然是有梯度的。两种情况是不一样的。

        # G update G first
        for p in self.netD.parameters():
            p.requires_grad = False

        self.optimizer_G.zero_grad()
        self.fake_H = self.netG(self.var_L)

        l_g_total = 0
        if step % self.D_update_ratio == 0 and step > self.D_init_iters:
            if self.cr

最低0.47元/天解锁文章