2016~2022 文字生成图像 Text to image(T2I)论文整理 阅读路线和阅读指南

2016~2021 文字生成图像 Text to image(T2I)论文汇总 阅读路线和阅读指南

综述类

1、Adversarial Text-to-Image Synthesis: A Review:《对抗性文本到图像合成:综述》

论文地址:https://arxiv.org/abs/2101.09983

阅读报告:Text to Image综述阅读报告1

2、A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis:《用于文本生成图像的对抗性神经网络综述与分类》

论文地址:https://arxiv.org/pdf/1910.09399.pdf

阅读报告:Text to Image综述阅读报告2

3、An Introduction to Image Synthesis with Generative Adversarial Nets《生成对抗网图像合成简介》

论文地址:https://arxiv.org/abs/1803.04469

阅读报告:Text to image综述阅读报告3

部分最新重要研究成果

按最新优先排序:
1、RAT-GAN:Recurrent Affine Transformation for Text-to-image Synthesis

论文地址:https://arxiv.org/pdf/2204.10482.pdf
代码地址:https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis

精读与理解:RAT-GAN:文本到图像合成中的递归仿射变换 Recurrent Affine Transformation for Text-to-image Synthesis

2、SSA-GAN:Text to Image Generation with Semantic-Spatial Aware GAN

论文地址:https://arxiv.org/pdf/2104.00567v3.pdf
代码地址:https://github.com/wtliao/text2image

精读与理解:SSA-GAN:基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN

3、Unifying Multimodal Transformer for Bi-directional Image and Text Generation《用于双向图像和文本生成的统一多模态转换器》

论文地址:https://arxiv.org/pdf/2110.09753v1.pdf

code:https://github.com/researchmm/generate-it

4、Fine-Grained Image Generation from Bangla Text Description using Attentional Generative Adversarial Network《使用注意力生成对抗网络从孟加拉语文本描述生成细粒度图像》

论文地址:https://arxiv.org/pdf/2109.11749v1.pdf

code:https://github.com/pioneerAlpha/BanglaText2ImageGeneration

5、Paint4Poem: A Dataset for Artistic Visualization of Classical Chinese Poems《Paint4Poem:中国古典诗歌艺术可视化数据集》

论文地址:https://arxiv.org/pdf/2109.11682v2.pdf

code:https://github.com/paint4poem/paint4poem

6、Improving Text-to-Image Synthesis Using Contrastive Learning《使用对比学习改进文本到图像的合成》

论文地址:https://arxiv.org/pdf/2107.02423v1.pdf

code:https://github.com/huiyegit/T2I_CL

7、CogView: Mastering Text-to-Image Generation via Transformers《CogView:通过 Transformers 掌握文本到图像的生成》

论文地址:https://arxiv.org/pdf/2105.13290v3.pdf
精读与理解:CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)

code1:https://github.com/THUDM/CogView
code2:https://github.com/lucidrains/x-transformers

8、Towards Open-World Text-Guided Face Image Generation and Manipulation《走向开放世界文本引导的人脸图像生成和操作》

论文地址:https://arxiv.org/pdf/2104.08910v1.pdf

code1:https://github.com/weihaox/TediGAN
code2:https://github.com/IIGROUP/TediGAN

9、Text to Image Generation with Semantic-Spatial Aware GAN《使用语义空间感知 GAN 生成文本到图像》

论文地址:https://arxiv.org/pdf/2104.00567v3.pdf

code:https://github.com/wtliao/text2image

10、Zero-Shot Text-to-Image Generation《零训练文本到图像生成》

论文地址:https://arxiv.org/pdf/2102.12092v2.pdf

code1:https://github.com/openai/DALL-E
code2:https://github.com/lucidrains/DALLE-pytorch

11、Cross-Modal Contrastive Learning for Text-to-Image Generation《用于文本到图像生成的跨模态对比学习》

论文地址:https://arxiv.org/pdf/2101.04702v4.pdf

code:https://github.com/google-research/xmcgan_image_generation

12、TediGAN: Text-Guided Diverse Face Image Generation and Manipulation《TediGAN:文本引导的多样化人脸图像生成和操作》

论文地址:https://arxiv.org/pdf/2012.03308v3.pdf

code1:https://github.com/weihaox/TediGAN
code2:https://github.com/IIGROUP/TediGAN

发展与往年经典模型

1、Generative Adversarial Text to Image Synthesis《生成对抗式从文本生成图像》

会议: ICML 2016

精读与理解:GAN-CLS和GAN-INT:Generative Adversarial Text to Image Synthesis生成性对抗性文本图像合成

论文地址: https://arxiv.org/pdf/1605.05396.pdf

代码地址: https://github.com/zsdonghao/text-to-image

2、Learning what and where to draw《学习画什么和画在哪》

会议: NIPS 2016

论文地址: https://arxiv.org/pdf/1610.02454.pdf

代码地址: https://github.com/reedscot/nips2016

3、PPGN: Plug & play generative networks: Conditional iterative generation of images in latent space《即插即用的生成网络:潜在空间中图像的条件迭代生成》

会议: CVPR 2017

论文地址: https://arxiv.org/pdf/1612.00005.pdf

代码地址: https://github.com/Evolving-AI-Lab/ppgn

4、StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks《StackGAN:使用堆叠的生成对抗式网络从文本生成照片般类似的图像》

会议: ICCV 2017

精读与理解:Text to image论文精读 StackGAN:Text to Photo-realistic Image Synthesis with Stacked GAN具有堆叠生成对抗网络文本到图像合成

论文地址: https://arxiv.org/pdf/1612.03242.pdf

代码地址: https://github.com/hanzhanggit/StackGAN

5、StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks《StackGAN ++:具有堆叠式生成对抗网络的逼真的图像合成》

精读与理解:Text to image论文精读 StackGAN++: Realistic Image Synthesis with Stacked GAN 具有堆叠式生成对抗网络的逼真的图像合成

会议: ICCV 2017

论文地址: https://arxiv.org/pdf/1710.10916v3.pdf

代码地址: https://github.com/hanzhanggit/StackGAN-v2

6、AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks《AttnGAN:带有注意的生成对抗网络细化文本到图像生成》

会议: CVPR, 2018.

论文地址: https://arxiv.org/pdf/1711.10485.pdf

代码地址: https://github.com/taoxugit/AttnGAN

精读与理解:Text to image论文精读 AttnGAN: Fine-Grained TexttoImage Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)

实验复现:AttnGAN代码复现(详细步骤+避坑指南)

7、MirrorGAN: Learning Text-to-image Generation by Redescription(MirrorGAN:通过重新定义学习文本到图像的生成)

会议: CVPR 2019

论文地址:https://arxiv.org/abs/1903.05854

代码地址:https://github.com/qiaott/MirrorGAN

精度与理解:Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)

8、DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis《DM-GAN:用于文本到图像合成的动态记忆生成对抗网络》

会议: CVPR 2019

论文地址: https://arxiv.org/abs/1904.01310?context=cs

代码地址: https://github.com/MinfengZhu/DM-GAN

精读与理解:论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for t2i 用于文本图像合成的动态记忆生成对抗网络

9、Semantics Disentangling for Text-to-Image Generation 《文本到图像生成的语义解决》

会议:CVPR 2019

论文地址:https://arxiv.org/abs/1904.01480v1

10、 Controllable Text-to-Image Generation《可控文本到图像生成 》

会议:NeurIPS 2019

论文地址:https://arxiv.org/pdf/1909.07083.pdf

代码地址:https://github.com/mrlibw/ControlGAN

11、text-to-Image Synthesis Based on Machine Generated Captions

论文地址:https://arxiv.org/pdf/1910.04056.pdf

12、CookGAN: Causality based Text-to-Image Synthesis

会议:CVPR 2020

论文地址:https://ieeexplore.ieee.org/document/9157040/citations#citations

精读与理解:Text to image论文精读 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )从菜谱描述自动生成菜肴照片

13、DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis

论文地址:https://arxiv.org/abs/2008.05865
代码地址:https://github.com/tobran/DF-GAN

精读与理解:DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型

  • 31
    点赞
  • 143
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
在上述代码中,`text_to_image` 方法并没有真正的将文本数据转化为对应的图像数据,而是创建了一个白色的 256x256 的 RGB 图像,并将其转化为对应的 Tensor 格式。这是因为在实际场景中,文本数据往往需要进行一些额外的处理,例如文本向量化、图像生成等,才能最终转化为对应的图像数据。不同的任务需要不同的方法,下面给出两个示例: 1. 文本数据向量化 在图像生成任务中,我们需要将输入的文本描述转化为对应的向量表示,然后使用生成器网络生成对应的图像。这个向量表示可以使用一些常见的文本表示方法,例如 TF-IDF、Word2Vec 等,或者使用一个预训练的文本编码器(例如 BERT、GPT 等)来得到。示例代码如下: ```python import torch from transformers import BertTokenizer, BertModel from PIL import Image class TextToImageDataset(Dataset): def __init__(self, text_dataset, image_size=256): self.text_dataset = text_dataset self.image_size = image_size self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') self.encoder = BertModel.from_pretrained('bert-base-uncased') def text_to_image(self, text_data): # 将文本数据转化为对应的向量表示 inputs = self.tokenizer(text_data, return_tensors='pt') outputs = self.encoder(**inputs) text_vector = outputs.last_hidden_state.mean(dim=1).squeeze() # 使用生成器网络生成对应的图像 generator = Generator() generator.load_state_dict(torch.load('generator.pth')) generator.eval() with torch.no_grad(): fake_image = generator(text_vector.unsqueeze(0)) fake_image = fake_image.squeeze().cpu() # 将生成图像进行缩放、裁剪等处理 img = transforms.functional.to_pil_image(fake_image) img = transforms.functional.resize(img, (self.image_size, self.image_size)) img = transforms.functional.center_crop(img, (self.image_size, self.image_size)) return transforms.functional.to_tensor(img) ``` 在上述代码中,我们使用 `BertTokenizer` 和 `BertModel` 类来对输入的文本进行编码,并得到对应的向量表示。然后,我们使用一个预训练的生成器网络 `Generator`,通过向量表示生成对应的图像。最后,我们对生成图像进行缩放、裁剪等处理,得到最终的图像数据。 2. 图像生成 在一些图像生成任务中,我们需要将输入的文本描述直接生成对应的图像,而不是先将其转化为向量表示。这个任务可以通过一些生成式模型来实现,例如 GAN、VAE 等。示例代码如下: ```python import torch from torchvision.utils import save_image from PIL import Image class TextToImageDataset(Dataset): def __init__(self, text_dataset, image_size=256): self.text_dataset = text_dataset self.image_size = image_size self.generator = Generator() self.generator.load_state_dict(torch.load('generator.pth')) self.generator.eval() def text_to_image(self, text_data): # 使用生成器网络生成对应的图像 with torch.no_grad(): fake_image = self.generator(text_data.unsqueeze(0)) fake_image = fake_image.squeeze().cpu() # 将生成图像进行缩放、裁剪等处理 img = transforms.functional.to_pil_image(fake_image) img = transforms.functional.resize(img, (self.image_size, self.image_size)) img = transforms.functional.center_crop(img, (self.image_size, self.image_size)) return transforms.functional.to_tensor(img) ``` 在上述代码中,我们直接使用一个预训练的生成器网络 `Generator`,通过输入的文本描述生成对应的图像。最后,我们对生成图像进行缩放、裁剪等处理,得到最终的图像数据。需要注意的是,在这种情况下,生成器网络的输入为文本描述,而不是文本向量表示。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

中杯可乐多加冰

请我喝杯可乐吧,我会多加冰!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值