文本生成图像 text-to-image
文章平均质量分 94
本专栏主要记录text-to-image的领域,也包括GAN、Diffusion Model、CNN、RNN等相关技术。包括期刊论文、源码、会议和其他学术最新研究成果,也包括博主的笔记、阅读理解、翻译和研究心得。
中杯可乐多加冰
2022年度博客之星总排名TOP12、人工智能领域TOP2,人工智能领域优质创作者,博客专家,目前研究方向为文本生成图像,欢迎交流~
展开
-
2022年最新文本生成图像研究 开源工作速览(Papers with code)
这篇博文将简要介绍一些已经开源的文本生成图像研究工作,基本上都是2022年的最新研究成果原创 2022-04-27 15:48:18 · 6617 阅读 · 6 评论 -
文本描述生成图像博文一站式导航搜索(Text to Image博文汇总目录帖 T2I博文一站回顾)
文本描述生成图像博文一站式导航搜索,这里主要为text-to-image的领域专栏的博文做目录导航。博文包括包括期刊论文、源码、会议和其他学术最新研究成果的笔记、阅读理解、翻译和研究心得。原创 2022-02-10 18:35:46 · 5323 阅读 · 7 评论 -
2016~2022 文字生成图像 Text to image(T2I)论文整理 阅读路线和阅读指南
综述类:1、Adversarial Text-to-Image Synthesis: A Review:《对抗性文本到图像合成:综述》https://arxiv.org/abs/2101.09983阅读报告:Text to Image综述阅读报告12、A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis:《用于文本生成图像的对抗性神经网络综述与分类》https://arxiv.org/pdf原创 2021-11-19 18:12:32 · 12258 阅读 · 5 评论 -
基于 Amazon EC2 快速部署 Stable Diffusion WebUI + chilloutmax 模型
自2023年以来,AI绘图已经从兴趣娱乐逐渐步入实际应用,在众多的模型中,作为闪耀的一颗明星,Stable diffusion已经成为当前最多人使用且效果最好的开源AI绘图软件之一。Stable Diffusion Web UI 是由AUTOMATIC1111 开发的基于 Stable Diffusion AI 模型的 AI 图片处理工具,支持文生图、图生图。该Web UI提供了一个图形化的操作界面,用户无需编写任何代码即可使用Stable Diffusion的所有功能。原创 2024-06-03 17:55:41 · 2939 阅读 · 16 评论 -
解决方案——文本生成图像DF-GAN配置Oxford-102 Flower 花数据集全流程
Oxford-102 Flower是牛津工程大学于2008年发布的用于图像分类的数,图像都是英国常见的花卉,训练集和验证集各包含10个图像,测试集由剩余的6129张图像组成(每类至少20张)。:每个类包含,百香花的图像数量最多,桔梗、墨西哥紫菀、青藤、月兰、坎特伯雷钟和报春花的图像最少,即每类40个,图像被重新缩放,使最小尺寸为500像素。原创 2024-02-21 17:28:18 · 5451 阅读 · 6 评论 -
【云上探索实验室】使用 Amazon Bedrock 体验构建Stable Diffusion-文本生成图像生成式 AI 应用
Amazon Bedrock 极大地降低了客户从基础模型到构建生成式 AI 应用的门槛,用户仅需通过简单的几个步骤创建和部署完全托管式的 Agent,通过动态调用 API 来执行复杂的业务任务。这一全新的服务范式不仅可以加速生成式AI应用的推广和采用,也可以为各行业在人工智能革命中找到更为便捷的落地途径。原创 2024-01-21 16:39:35 · 9818 阅读 · 5 评论 -
Text to image论文精读 TISE (Text-to-Image Synthesis Evaluation):用于文本到图像合成的评估度量工具包
在本文中,我们对最先进的文本到图像合成方法进行了研究,并提出了评估这些方法的框架。我们考虑图像包含单个或多个对象的合成。(i)对于图像质量评估,一个常用的指标,例如启始得分(IS),在单对象情况下经常被错误校准,或者在多对象情况下被误用;(ii)对于文本相关性和对象准确性评估,在现有的R-精度(RP)和语义对象准确性(SOA)度量中分别存在过拟合现象;(iii)对于多目标情况,许多重要的评估因素,如目标保真度、位置对准、计数对准,在很大程度上被忽略;原创 2023-12-26 17:14:35 · 1116 阅读 · 2 评论 -
T2I文本生成图像 中文期刊论文速览-2(软件学报 CSA-GAN基于条件语义增强的文本到图像生成、计算机工程与应用SA-AttnGAN:基于自注意力机制的文本生成单目标图像方法)
软件学报 CSA-GAN基于条件语义增强的文本到图像生成、计算机工程与应用SA-AttnGAN:基于自注意力机制的文本生成单目标图像方法。文本生成图像在视觉上取得了优异效果,但是仍然存在细节表达不足等问题。基于以上问题,文章提出基于条件语义增强的生成方法CSA-GAN合成单目标图像在真实性上仍存在一定缺陷,如针对鸟类图形合成时,会出现“多头”“多嘴”等异常情况,基于上述问题本文提出SA-AttnGAN原创 2023-12-05 08:49:54 · 1079 阅读 · 0 评论 -
【如何写论文】硕博学位论文的结构框架、过程与大纲分析
标准摘要包含四个层次的内容:目的-方法-结果-结论。目的:为什么要进行本项研究,现状中本项研究的缺失或者做了但是存在不足,这个主题已经解决了什么问题,我的研究又解决了什么新问题。方法:简述课题的研究过程中用了怎样的方法,包括对象、原理、条件、手段等;结果:用什么样的数据来验证你的方法;从研究中得出什么结论;结论:得出的结论对研究领域和实践有什么意义(理论与实践意义)及它们可能如何影响该领域的未来研究或理解。原创 2023-10-30 20:15:14 · 7494 阅读 · 4 评论 -
文本生成图像工作简述5--对条件变量进行增强的 T2I 方法(基于辅助信息的文本生成图像)
在传统的T2I方法中,常常使用一个固定的随机噪声向量作为输入,然后通过生成器网络来生成图片。而条件变量增强的T2I方法则通过引入额外的条件信息来生成更具特定要求的图片,这个条件信息可以是任何与图片相关的文本信息,比如图片的描述、标签或者语义向量。原创 2023-10-23 17:16:36 · 474 阅读 · 0 评论 -
Text to image论文精读SeedSelect: 使用SeedSelect微调扩散模型It’s all about where you start
文本到图像的扩散模型可以在新的组合和场景中综合各种各样的概念。然而,他们仍然很难产生不寻常的概念,罕见的不寻常的组合,或者像手掌这样的结构化概念。SeedSelect通过在噪声空间中仔细选择合适的生成种子进行微调,可以正确地生成稀有概念。SeedSelect是高效的,不需要重新训练扩散模型。原创 2023-06-01 11:27:19 · 2212 阅读 · 31 评论 -
Stable Diffusion复现——基于 Amazon SageMaker 搭建文本生成图像模型
众所周知,Stable Diffusion扩散模型的训练和推理非常消耗显卡资源,我之前也是因为资源原因一直没有复现成功。 而最近我在网上搜索发现,亚马逊云科技最近推出了一个【云上探索实验室】刚好有复现Stable Diffusion的活动,其使用亚马逊AWS提供的Amazon SageMaker机器学习平台,为快速构建、训练和部署机器学习模型提供了许多便利的工具和服务,我也是深入体验了一番。原创 2023-04-06 12:58:18 · 31410 阅读 · 88 评论 -
探寻人工智能前沿 迎接AIGC时代——CSIG企业行(附一些好玩的创新点)
由中国图像图形学会和合合信息共同举办的CSIG企业行活动圆满结束,多位来自图像描述与视觉问答、图文公式识别、自然语言处理、生成式视觉等领域的学者分享了各自的研究成果和经验,并与现场观众进行了深入的交流和探讨。干货多多,感悟多多,在这里分享此次的收获给大家。原创 2023-03-29 09:26:51 · 11769 阅读 · 62 评论 -
生成模型的2022年——人工智能AIGC顶级论文回顾
2022年是生成模型奇幻发展的一年,Stable Diffusion🎨创造了超现实主义的艺术, ChatGPT 💬回答了生命意义的问题,Make a Video从文本生成了栩栩如生的马儿,DreamFusion生成了不可思议的三维模型,多个AI领域得以迅速发展,绘画、音乐、新闻创作、主播等诸多行业正在被重新定义。原创 2023-02-08 16:05:26 · 8699 阅读 · 47 评论 -
文本生成图像工作简述1--概念介绍和技术梳理
文本到图像的 AI 模型仅根据简单的文字输入就可以生成图像。用户可以输入他们喜欢的任何文字提示——比如,“一只可爱的柯基犬住在一个用寿司做的房子里”——然后,人工智能就像施了魔法一样,会产生相应的图像。原创 2022-10-14 11:48:52 · 7055 阅读 · 29 评论 -
文本生成图像工作简述2--常用数据集分析与汇总
文本生成图像(text-to-image)可以根据给定文本生成符合描述的真实图像,其是多模态机器学习的任务之一,具有巨大的应用潜力,如视觉推理、图像编辑、视频游戏、动画制作和计算机辅助设计。本篇将简述文本生成图像的数据集,汇总介绍数据集的内容、特点、细节和下载方式等。原创 2022-11-23 16:59:14 · 10989 阅读 · 29 评论 -
文本生成图像工作简述3--技术难点、研究意义、应用领域和目前的局限性
文本生成图像指的是使用人工智能技术将文本转换为图像的过程,其可以根据给定文本生成符合描述的真实图像,其是多模态机器学习的任务之一,文本生成图像的技术难点主要有两个: - 如何捕捉文本和图像之间的复杂关系; - 如何生成高质量的图像。原创 2022-12-12 15:47:01 · 7191 阅读 · 36 评论 -
文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研
各种各样的模型已经开发用于文本到图像的生成,模型主要可以分为三大类:扩散模型(Diffusion Model)、自回归模型(Autoregressive Model)、生成对抗网络模型(Generative Adversarial Networks),下面梳理一些近几年重要的模型并对比这三种方法的优劣原创 2023-02-02 16:51:20 · 11264 阅读 · 34 评论 -
最低仅需一张入门级显卡便可运行扩散模型AI作画——Stable Diffusion Webui试玩体验 文本生成图像扩散模型本机推理
最近在网上发现了一款训练好了的Stable Diffusion + 友好的Webui,具有完全免费、离线运行、解压即用、超简单配置、全部汉化、效果惊人的Stable Diffusion Webui项目,在此分享给大家。原创 2023-03-20 10:48:18 · 3601 阅读 · 17 评论 -
AI画师技术又精进了? AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发
自从文本引导的图像生成模型火了以后,画家群体迅速扩张,不会用画笔的人也能发挥想象力进行艺术创作。那么对于文本生成3D这个新的领域,未来AI用于模型设计辅助的潜力也是值得期待,不仅能帮助画师进行设计,也许还能帮助建模师/设计师进行3D建模、产品设计、学术建模、建筑设计、元宇宙开发等等,潜力无限,为何不现在就开始学习新工具,开始全新的创意探索呢?原创 2022-11-08 11:32:54 · 8050 阅读 · 29 评论 -
Text to Image综述阅读(1.1):介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
起源:基于GAN的文本生成图像,最早在2016年由Reed等人提出,最开始是Conditional GANs的扩展,仅在受限的数据集取得成果,小图像分辨率64*64。原创 2021-10-12 10:57:18 · 4708 阅读 · 0 评论 -
Text to Image综述阅读(1.2)发展与基本方法 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
本系列主要在于总结和归纳基于GAN的“文本生成图像”(text to image)方向的研究情况。原创 2021-10-17 19:38:05 · 3309 阅读 · 3 评论 -
Text to Image综述阅读(1.3)度量标准与未来研究方向 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
本系列是根据2021年的一篇论文《Adversarial Text-to-Image Synthesis: A Review》理解所写,主要在于总结和归纳基于GAN的“文本生成图像”(text to image)方向的研究情况。很多内容为个人理解,仅供学习参考。论文地址:https://arxiv.org/abs/2101.09983原创 2021-10-23 10:17:09 · 2310 阅读 · 2 评论 -
Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告,该综述发表于2019年,其将文本生成图像分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,并且介绍了代表性model。原创 2021-11-13 19:58:11 · 3605 阅读 · 0 评论 -
Text to image综述阅读(3)An Introduction to Image Synthesis with Generative Adversarial Nets生成对抗网图像合成简介
这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告。综述名为:《An Introduction to Image Synthesis with Generative Adversarial Nets》,发表于2018年,其围绕的主题是用GAN做图像合成,分为两个部分text to image和 image to image,这里仅讨论text to image 部分。本文是阅读这篇文章text to image 部分的阅读报告。原创 2021-11-17 23:07:42 · 2058 阅读 · 0 评论 -
T2I文本生成图像 中文期刊论文速览-1(ECAGAN:基于通道注意力机制的文本生成图像方法+CAE-GAN:基于Transformer交叉注意力的文本生成图像技术)
ECAGAN:基于通道注意力机制的文本生成图像方法 和 CAE-GAN:基于Transformer交叉注意力的文本生成图像技术原创 2022-06-16 10:11:33 · 4060 阅读 · 3 评论 -
Text to image论文精读 GAN-CLS和GAN-INT:Generative Adversarial Text to Image Synthesis生成性对抗性文本图像合成(文本生成图像)
这是一篇用GAN做文本生成图像(Text to Image、T2I)的论文,文章在2016年由Reed等人发布,被ICML会议录取。可以说是用GAN做文本生成图像的开山之作。本篇文章是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。原创 2021-11-26 23:02:29 · 3670 阅读 · 6 评论 -
Text to image论文精读 StackGAN:Text to Photo-realistic Image Synthesis with Stacked GAN具有堆叠生成对抗网络文本到图像合成
本篇文章的创新点有三:(1)提出了一种新的堆叠生成对抗网络,用于从文本描述合成照片真实感图像。它将生成高分辨率图像分解为更易于管理的子问题,并显著提高了技术水平。StackGAN首次从文本描述生成256×256分辨率的图像,具有照片般逼真的细节。(2) **提出了一种新的条件增强**(CA)技术来稳定条件GAN训练,并提高了生成样本的多样性。(3) 大**量的定性和定量实验**证明了整体模型设计的有效性以及各个组件的影响,这为设计未来的条件GAN模型提供了可参考的模板和比较。原创 2021-12-02 21:33:35 · 4383 阅读 · 0 评论 -
Text to image论文精读 StackGAN++: Realistic Image Synthesis with Stacked GAN(具有堆叠式生成对抗网络的逼真的图像合成)
这篇文章主要工作是:将原先的Stack GAN的两阶段的堆叠结构改为了树状结构。包含有多个生成器和判别器,它们的分布像一棵树的结构一样,并且每个生成器产生的样本分辨率不一样。原创 2021-12-13 10:42:27 · 4736 阅读 · 5 评论 -
Text to image论文精读 AttnGAN: Fine-Grained TexttoImage Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)
这篇文章提出了一种注意力生成对抗网络(AttnGAN),它允许注意力驱动、多阶段细化细粒度文本到图像的生成,此外,还提出了一种深度注意多模态相似性模型来计算细粒度图像-文本匹配损失以训练生成器,进而生成更逼真的图像。文章被2018年CVPR(IEEE Conference on Computer Vision and Pattern Recognition)会议收录。原创 2022-01-12 16:53:05 · 5725 阅读 · 5 评论 -
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
MirrorGAN通过学习文本-图像-文本,试图从生成的图像中重新生成文本描述,从而加强保证文本描述和视觉内容的一致性。文章被2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。原创 2022-02-09 16:10:07 · 2853 阅读 · 0 评论 -
Text to image论文精读 从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )
CookGAN旨在解决因果关系效应。食物图像的因果演化隐含在一个连续的网络中。 本篇博文是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。原创 2022-01-29 16:12:37 · 4282 阅读 · 5 评论 -
Text to image论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for t2i 用于文本图像合成的动态记忆生成对抗网络
这篇文章提出了动态内存生成对抗网络(DM-GAN)来生成高质量的图像。该方法可以在初始图像生成不好时,引入动态存储模块来细化模糊图像内容,从而能够从文本描述中更加准确地生成图像。原创 2022-01-22 10:45:40 · 4233 阅读 · 3 评论 -
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
CogView是清华大学和阿里巴巴达摩院共同研究开发的一款,用Transformer来控制文本生成图像的模型。文章发表于2021年10月。论文地址:https://arxiv.org/pdf/2105.13290v3.pdf代码地址:https://github.com/THUDM/CogView原创 2022-03-06 21:14:57 · 7317 阅读 · 6 评论 -
Text to image论文精读GR-GAN:逐步细化文本到图像生成 GRADUAL REFINEMENT TEXT-TO-IMAGE GENERATION
GR-GAN是北京邮电大学学者们发表的一篇文本生成图像的论文,本文提出了一种渐进细化生成对抗网络模型,GRG模块设计用于生成从低分辨率到高分辨率的图像,ITM模块设计用于提供相应阶段在句子图像级和单词区域级的图像-文本匹配损失。...原创 2022-06-03 17:03:03 · 2342 阅读 · 5 评论 -
Text to image论文精读SD-GAN:文本到图像生成的语义分解Semantics Disentangling for Text-to-Image Generation
SD-GAN是中科大、香港中文大学、北航等学者2019年提出的一个文本生成图像模型。其通过在鉴别器当中增加孪生机制,并通过语义条件批量归一化来发现不同低级语义的视觉嵌入策略。原创 2022-08-31 09:36:58 · 1671 阅读 · 23 评论 -
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
DF-GAN是南京邮电大学、苏黎世联邦理工学院、武汉大学等学者共同研究开发的一款简单且有效的文本生成图像模型。该论文已被CVPR 2022 Oral录用,文章最初发表于2020年8月,最后v3版本修订于22年3月 。论文地址:https://arxiv.org/abs/2008.05865代码地址:https://github.com/tobran/DF-GAN本博客是精读这篇论文的报告,包含一些个人理解、知识拓展原创 2022-04-23 11:00:19 · 10586 阅读 · 15 评论 -
Text to image论文精读SSA-GAN:基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN
文本到图像生成(T2I)模型旨在生成语义上与文本描述一致的照片逼真图像。Semantic-Spatial Aware GAN提出了一种新的语义空间感知GAN框架,文章发表于2021年10月。论文地址:https://arxiv.org/pdf/2104.00567v3.pdf代码地址:https://github.com/wtliao/text2image本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。原创 2022-04-29 08:24:06 · 5807 阅读 · 21 评论 -
Text to image论文精读RAT-GAN:文本到图像合成中的递归仿射变换 Recurrent Affine Transformation for Text-to-image Synthesis
RAT-GAN提出了一种用于生成对抗网络的递归仿射变换 (RAT),将所有融合块与递归神经网络连接起来,以模拟它们的长期依赖关系。原创 2022-05-18 09:29:45 · 3744 阅读 · 16 评论 -
Text to image论文精读DR-GAN:分布正则化的生成对抗网络 Distribution-Regularization-for-Text-to-Image-Generation
DR-GAN是北京理工大学者和大连理工大学学于2022年4月提出的一种新的文本到图像生成模型,称为分布正则化生成对抗网络(Distribution-Regularization-for-Text-to-Image-Generation,DR-GAN)原创 2022-12-16 13:49:03 · 2859 阅读 · 17 评论