[StackGAN实践] [2]网络训练

最新推荐文章于 2022-04-10 22:47:07 发布

hellopipu

最新推荐文章于 2022-04-10 22:47:07 发布

阅读量787

点赞数 1

分类专栏： StackGAN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26020233/article/details/105926006

版权

本文介绍了StackGAN模型的网络结构，包括两个阶段的GAN网络： Stage1 生成64x64低分辨率影像，Stage2 则进一步生成256x256高分辨率影像。在训练过程中，遇到生成器损失无法收敛的问题，尝试调整学习率、增加通道数和改变GAN损失函数等方法，但未取得成功。

摘要由CSDN通过智能技术生成

网络结构

论文中的网络结构图如下，embedding的提取直接使用预训练好的text encoder进行提取（不是本文重点）。提出的StackGAN整个模型包含2个GAN网络，分别用于两个阶段：
Stage1 ：embedding+ noise 为输入，利用GAN输出低分辨率的64x64大小的影像；
Stage2 ：embedding+ Stage I的低分辨率生成影像为输入，利用GAN输高分辨率的256x256大小的影像
在这里插入图片描述
结合代码，stage I与stage II 的详细结构如下：

注意：其实代码中stage II 鉴别器输出的logit 有两种，分为condition 和uncondition，分别对应着有无引入embedding信息。（图中只显示了condition的logit输出）

每个阶段的GAN训练流程是相同的：

生成fake img；
训练鉴别器。考虑三种鉴别器输入，(1)real pairs：真实图像与对应的文本embedding，gt为 1；(2)wrong pairs：真实图像与不匹配的文本embedding，gt为 0；(3) fake pairs：生成

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
[StackGAN实践] [2]网络训练

网络结构论文中的网络结构图如下，embedding的提取直接使用预训练好的text encoder进行提取（不是本文重点）。提出的StackGAN整个模型包含2个GAN网络，分别用于两个阶段：Stage1 ：embedding+ noise 为输入，利用GAN输出低分辨率的64x64大小的影像；Stage2 ：embedding+ Stage I的低分辨率生成影像为输入，利用GAN输高分辨...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。