[StackGAN实践] [2]网络训练

本文介绍了StackGAN模型的网络结构,包括两个阶段的GAN网络: Stage1 生成64x64低分辨率影像,Stage2 则进一步生成256x256高分辨率影像。在训练过程中,遇到生成器损失无法收敛的问题,尝试调整学习率、增加通道数和改变GAN损失函数等方法,但未取得成功。
摘要由CSDN通过智能技术生成

网络结构

论文中的网络结构图如下,embedding的提取直接使用预训练好的text encoder进行提取(不是本文重点)。提出的StackGAN整个模型包含2个GAN网络,分别用于两个阶段:
Stage1 :embedding+ noise 为输入,利用GAN输出低分辨率的64x64大小的影像;
Stage2 :embedding+ Stage I的低分辨率生成影像 为输入,利用GAN输高分辨率的256x256大小的影像
在这里插入图片描述
结合代码,stage I与stage II 的详细结构如下:
在这里插入图片描述

注意:其实代码中stage II 鉴别器输出的logit 有两种,分为condition 和uncondition,分别对应着有无引入embedding信息。(图中只显示了condition的logit输出)

每个阶段的GAN训练流程是相同的:

  1. 生成fake img;
  2. 训练鉴别器。考虑三种鉴别器输入,(1)real pairs:真实图像与对应的文本embedding,gt为 1;(2)wrong pairs:真实图像与不匹配的文本embedding,gt为 0;(3) fake pairs:生成
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值