CV
文章平均质量分 94
NLP_wendi
这个作者很懒,什么都没留下…
展开
-
AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】
GLIDE 使用了文本作为条件,来实现文本引导的扩散模型,在文本引导上面,文中主要使用了两种策略,Classifier-Free Diffusion Guidence 以及 CLIP 来作为条件监督,同时使用了更大的模型,在数据量上,和DALL-E 相似。实际上,扩散模型做的事情本质上是一样的,不同的是,扩散模型完全使用了全新的思路来实现这个目标。(实际上等价于学习了一个隐含的分类器),缺点是,成本比较高,相当于每次要生成两个输出,尽管如此,后面的大部份知名文本生成图像模型,都是基于这个方法进行的。原创 2022-09-20 14:45:28 · 6615 阅读 · 2 评论 -
AI艺术的背后:详解文本生成图像模型【基于GAN】
系列文章链接:AI 艺术生成已经开始走进大众的视野中。在过去一年里,出现了大量的文本生成图像模型,尤其是随着 Stable Diffusion 以及 Midjourney 的出现,带起了一股 AI 艺术创作热潮,甚至很多艺术家也开始尝试用 AI 来辅助艺术创作。在本文中,将会系统梳理近几年出现的文本生成图像算法,帮助大家深入了解其背后的原理。生成对抗网络(GAN,Generative Adversarial Networks)由两个主要的模块构成:生成器和判别器。生成器负责生成一张图片,而判别器则负责判断这原创 2022-09-20 11:57:35 · 3864 阅读 · 0 评论 -
AI艺术的背后:详解文本生成图像模型【基于 VQ-VAE】
详解文本生成图像模型原创 2022-09-19 20:09:39 · 3161 阅读 · 0 评论 -
【ViLT】 Vision-and-Language Transformer Without Convolution or Region Supervision -- 论文精读
视觉和语言预训练(VLP)提高了各种视觉和语言联合下游任务的表现。目前的VLP方法严重依赖于图像特征提取过程,其中大部分涉及到区域特征(如物体检测)和卷积架构(如ResNet)。虽然在文献中通常被忽略掉这一点,但我们发现它在(1)效率/速度方面存在问题,简单地提取输入特征需要比多模态交互步骤多得多的计算;(2)表达能力,因为它是视觉嵌入器及其预定义的视觉词汇的表达能力的上界。.....................原创 2022-08-25 20:36:06 · 935 阅读 · 0 评论 -
【Clip】Learning Transferable Visual Models From Natural Language Supervision -- 论文精读
计算机视觉目前的SOTA模型只能用来预测预先确定好的目标类别,这种受限的监督学习范式限制了模型的泛化性和应用范围,因为需要额外的标注数据来标识其他的类别。直接从图像的描述文本中学习是个很有潜力的方法,可以充分利用监督数据。我们研究证实了,预测描述文本属于哪一个图像的这种简单的预训练任务是个有效且易扩展的方法,从4亿图像文本对中从零训练,可以取得SOTA效果。预训练之后,简单构造的自然语言可以用来引导视觉模型去做物体的分类,且只用zero-shot的模式迁移到下游任务上。https。.............原创 2022-07-14 22:32:08 · 636 阅读 · 0 评论 -
Masked Autoencoders Are Scalable Vision Learners(MAE)
Masked Autoencoders Are Scalable Vision Learners原创 2022-04-05 17:55:57 · 763 阅读 · 0 评论 -
Vision Transformer(ViT)
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE原创 2022-04-05 17:53:40 · 2589 阅读 · 0 评论