u013250861
这个作者很懒,什么都没留下…
展开
-
DALL·E2(生成模型串讲,从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM)
引言第一段,作者又吹了一下CLIP模型,说CLIP学到的图像特征非常的稳健(对各种分布/风格的鲁棒性都很强,比如不管是漫画的香蕉、素描的香蕉还是自然界的香蕉,都能分辨出来),而且可以做zero-shot,在各种下游的视觉领域都被证明效果非常好。图像变成了像素,语音也抽样过了,大部分工作的很好的也都是分类模型(回归任务→分类任务)。这个分类器是在ImageNet上训练的,只不过图片加了很多噪声,因为扩散模型的输入始终是加了很多噪声的,跟真实的ImageNet图片是很不一样的,所以是从头训练的。原创 2024-12-11 11:26:26 · 83 阅读 · 0 评论 -
DALL-E 系列:AI绘画背后的惊人真相!!【1个离奇内幕、3个意想不到、5大秘密揭示】
然后,通过解码器,可以使用这些编码来生成新的猫图像,可能会有稍微不同的大眼睛和尖耳朵的组合。最终,整张图片被表示为1024个(上图红色 l 1 . . . . l N l_{1}....l_{N}l1....lN)这样的token,其中每个token代表着图片的一个小块。这样,通过对模型生成的图像进行采样,并使用CLIP模型对采样结果进行排序,DALL-E能够找到与给定文本最匹配的生成图像。再从图像编码器中的图像拿出来,把图像向量,输入z i z_{i}zi,输出 z i ′ z'_{i}zi′。原创 2024-12-11 11:21:01 · 74 阅读 · 0 评论 -
目前最强的文生图模型?!FLUX完全解读!附体验地址
几天前,Poe AI新增了一个文生图的模型,在给用户发放的邮件通知中,Poe形容这个文生图模型是“the best image generator”,它便是FLUX。说起FLUX模型,可能很多小伙伴都没听说过。这并不奇怪。FLUX是由Black Forest Labs(黑森林实验室)推出的一款最新的文本生成图像模型。而Black Forest Labs今年8月1日,也就是大约两周前,才在官网宣布了Black Forest Labs的启动。Black Forest Labs是由Stable Diffusion原创 2024-12-06 19:54:24 · 246 阅读 · 0 评论 -
AI-多模态-文本->图像-2021:DALL-E模型【OpenAI】
通过将对自然语言的理解与生成相应视觉表现的能力结合起来——换句话说,通过“读”和“看”的能力——DALL-E有力地展示了多模态AI的潜力。DALL-E生成的图像未曾存在于世界上或任何人的想象中。再看室内设计,一个带有拱门和意大利元素且带壁炉的客厅,这样的要求描述不仅符合甲方的思路,而且在满足要求前提下,给出了非常多的合理布局设计。不同于GAN(生成式对抗网络)的一点是,虽然GAN能够替换视频里的人脸,但其仅仅限制于人脸的范畴,而Dalle是将概念和概念之间做了关联,这在以往也是从未被实现过的。原创 2022-12-01 17:56:18 · 2233 阅读 · 0 评论 -
AI-多模态-文本->图像-2021:Stable Diffusion【开源】【目前开源模型中最强】【并不直接恢复图像,图像的像素太多,空间太大,直接恢复难度太大】【VAE、ResNet、UNet】
最近大火的Stable Diffusion也开源了(20220823);我也本地化测试了一下效果确实比Dall-E mini强太多了,对于我们这些玩不上Dall-E2的这个简直就是就是捡钱的感觉,当然后期跑起来,稍微不注意显存就炸了。这里我写一下安装过程,具体分为两个安装流程;原创 2022-12-22 16:18:06 · 2230 阅读 · 0 评论 -
扩散模型-2020-理论基础:DDPM理论推导【目前“文本生图像”所采用的扩散模型大都是来自于DDPM】
第一个重要公式,如何得到Xt时刻的分布呢(前向过程)αt1−βtβ要越来越大,论文中 0.0001 到 0.002 ,从而α也就是要越来越小xtatxt−11−αtz1一开始加点噪就有效果,越往后得加噪越多才行但是现在咱们只能知道后一时刻分布是由前一时刻加噪得到的,但是整个序列咋算?如果一个个来计算,那也太慢了吧,能不能直接Xt由X0xt−1at−1xt−21−αt。原创 2024-01-28 00:22:40 · 124 阅读 · 0 评论 -
扩散模型-2020-理论基础:DDPM【目前“文本生图像”所采用的扩散模型大都是来自于DDPM】【输入:带噪音的图片+文本+噪音程度值;输出:待去除的噪音】【带噪音的图片-输出的噪音=生成的图片】
作为图像生成模型,这也引发了对扩散模型的研究热潮。相比GAN来说,扩散模型训练更稳定,而且能够生成更多样的样本,OpenAI的论文。,我们将从一个随机噪音开始逐渐去噪音直至生成一张图像,这也是我们要求解或者训练的部分。也证明了扩散模型能够超越GAN。之后,越来越多的大公司卷入这个方向,如谷歌在今年相继推出了。,前向扩散过程是对一张图像逐渐添加高斯噪音直至变成。,继OpenAI在2021提出的文本转图像模型。一些主流的文本转图像模型如。近段时间最火的方向无疑是。原创 2023-05-02 11:53:15 · 545 阅读 · 0 评论 -
生成式-看图说话/图片问答/以图生文-202309-GPT4V:试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读
除此以外,GPT-4V还可以识别常见的疾病,例如其能根据肺部的CT扫描指出潜在的问题,又或者对给定的x光片中的牙齿和颌骨,解释下颌左下方和右侧部分出现的智齿可能需要切除;文章用很大篇幅介绍了GPT-4V可以执行的任务,包括用测试样本来探索GPT-4V的质量和通用性,现阶段GPT-4V能够支持的输入和工作模式,以及提示模型的有效方法。4、未来的发展方向是什么?对这些样本的观察表明,GPT-4V 在处理任意交错的多模态输入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成为强大的多模态通用系统。原创 2023-12-19 01:12:54 · 1040 阅读 · 0 评论 -
信息论:信息量、信息熵(最短平均编码长度)、条件熵、交叉熵(用非真实分布信息量表示的平均编码长度)、相对熵/信息增益/KL散度=交叉熵-信息熵、JS Divergence、F-Divergence
相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量 。在信息理论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值 。相对熵是一些优化算法,例如最大期望算法(Expectation-Maximization algorithm, EM)的.原创 2020-12-29 20:27:05 · 1589 阅读 · 1 评论 -
计算机视觉(CV)-生成模型:GAN(Generative Adversarial Network对抗生成网络)【Generator(RNN/CNN)+Discriminator(CNN)】【单调】
生成对抗网络(英语:Generative Adversarial Network,简称GAN)是生成模型的一种,生成模型就是用机器学习去生成我们想要的数据,正规的说法是,获取训练样本并训练一个模型,该模型能按照我们定义的目标数据分布去生成数据。GAN 的核心思想源于博弈论的纳什均衡。GAN能够有效地解决很多生成式方法的缺点,主要包括:训练了多次以后,生成的图片人脸分布都是一样的,只有色调的改变。Inception Score参考资料:转载 | 史上最全GAN综述2020版:算法、理论及应用GAN 的原创 2020-12-24 23:48:48 · 1497 阅读 · 1 评论 -
VLM(Vision-Language Models)技术简介
对比式目标函数的目的是希望在特征空间使得正样本对之间的距离尽可能接近,而正负样本对之间的距离尽可能远。通常用InfoNCE及其变体作为图像对比学习的目标函数通常由两部分构成,一部分为图像特征到文本特征的InfoNCE,一部分为文本特征与其对应的图像的特征的InfoNCE,将这两者结合作为最终的损失函数。在Image-Text Contrastive的基础上还需要加上label的信息,这里未完待续。。原创 2023-10-27 23:46:14 · 1611 阅读 · 0 评论