AttnGAN论文阅读笔记 Text to Image

最新推荐文章于 2023-05-29 20:17:27 发布

biu piu biu piu

最新推荐文章于 2023-05-29 20:17:27 发布

阅读量1k

点赞数 3

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MISS_XDY/article/details/117932515

版权

AttnGAN引入了Attentional Generative Network，通过单词级的注意力机制来生成图像的细节。同时，它采用Deep Attentional Multimodal Similarity Model (DAMSM) 计算细粒度的图像-文本匹配损失，优化生成结果。模型通过多个生成器逐步增加图像的分辨率，结合文本描述生成与之高度匹配的图像。

摘要由CSDN通过智能技术生成

参考 https://blog.csdn.net/weixin_43460876/article/details/116109135

https://blog.csdn.net/weixin_43551972/article/details/90454166

引入 Attentional Generative Network，可以通过关注自然语言描述中的相关单词来合成图像不同子区域的细粒度细节。

提出DAMSM，计算细粒度图像-文本匹配损失，用于训练生成器。

模型结构图

Attentional Generative Network

之前的text2img都是对整个句子进行encode，缺少细粒度的单词级别的信息。

AttnGAN提出了一种新的注意力模型，以单词为条件生成图片的子区域，这些所用到的单词，都是和图像最相关的。

在AttnGAN中，有m个生成器G，生成器之间有hidden states隐藏状态h，除第一个G之外，每个G的输入都为上一层的h，多个G生成从小到大尺寸的image。整个过程如下所示：

将文本embedding得到word features和sentence features;
利用sentence features生成一个低分辨率的图像；
在低分辨率的图像上进一步加入word features和sentence features来生成更高分辨率的图像。

生成低分辨率图像

输入：来自标准正态分布的噪声z、条件增强后的文本的sentence features（ $\bar{e}$ ，整个句子的向量）

生成细粒度图像

$h$ 的每一列，是图像每个子区域的特征向量

$x\hat{}$ 表示经过G后，生成的图像

$F_{i}$ 表示的是神经网络</

最低0.47元/天解锁文章

biu piu biu piu

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
AttnGAN论文阅读笔记 Text to Image

引入 Attentional Generative network
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。