- 博客(283)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 【Stable Diffusion XL】huggingface diffusers 官方教程解读
为了方便,DiffusionPipeline将这些组件捆绑在一起,你也可以解绑pipeline,分别使用模型和调度程序来创建新的扩散系统。在本教程中,您将学习如何使用模型和调度器来组装用于推理的扩散系统,从基本pipeline开始,然后进展到Stable Diffusion pipeline.本教程向您展示如何使用autoppipeline在给定预训练权值的情况下,自动推断要为特定任务加载的管道类。到目前为止,您已经拥有了开始训练模型的大部分部分,剩下的就是将所有内容组合在一起。
2023-09-09 18:18:10 2540
原创 Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码
这是standard diffusion和Latent diffusion模型之间的关键区别:在Latent diffusion中,模型被训练成生成图像的latent(压缩)表示。编码器将图像表示压缩为较低分辨率的图像表示,解码器将较低分辨率的图像表示解码回假定噪声较小的原始较高分辨率的图像表示。在这篇文章中,我们想展示如何使用Stable Diffusion with the 🧨 Diffusers library,,解释模型是如何工作的,最后深入探讨扩散器是如何允许自定义图像生成pipeline的。
2023-09-08 17:32:03 5519
原创 vim操作学习笔记
VIM 的正常模式下(参考上文关于正常模式的描述)按下键盘上的冒号 :这时会在显示屏底部出现冒号 :(进入了 VIM 的命令模式),然后在输入 ls ,屏幕上会出现打开的所有文件的序号和文件名,我们继续输入冒号 : ,然后输入 bn (这里的 n需要做一个解释并不是键盘上的 n ,而是文件序号的代指,如 b1 代表显示屏上切换到第一个文件,b2 代表显示屏上切换到第二个文件)。nfa 移动到本行光标处开始的第 n 个 字符为 a 的地方(n 是 1,2,3,4 …ta 移动光标至 a 字符的前一个字符。
2023-08-21 17:30:54 505
原创 认识Transformer:入门知识
视频链接:https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=60Seq2SeqRNN不容易被平行化提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。b1 到b4 是可以同时被算出。可以用来取代RNN。来源: Attention is all you need然后用每一个a 去对每个k 做attention加速的矩阵乘法过程
2023-08-14 18:54:29 1503
原创 Magic3D: High-Resolution Text-to-3D Content Creation(高分辨率文本到3d内容创建)
在第一阶段,我们使用eDiff-I[2]中描述的基础扩散模型,它类似于DreamFusion中使用的Imagen[38]的基础扩散模型。具体来说,我们使用来自即时NGP[27]的基于密度的体素修剪方法,以及基于八叉树的射线采样和渲染算法[46]。我们的方法被称为Magic3D,可以在40分钟内创建高质量的3D网格模型,这比DreamFusion快2倍(据报道平均需要1.5小时),同时也实现了更高的分辨率。Magic3D是一个两阶段的从粗到精的框架,使用高效的场景模型,实现高分辨率的文本到3d合成(图2)。
2023-07-13 08:58:19 1337 1
原创 Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑)
最后,我们继承了体积表示的局限性。请注意,与最近的神经 3D 场景表示(包括 ReLU Fields)相比,我们没有对视图相关的外观效应进行建模,因为我们发现当以 2D 基于扩散的模型引导时,它会导致不希望的伪影。在上一节中描述的初始体素网格 Gi的基础上,我们通过优化 Ge 来执行文本引导的对象编辑,Ge 是一个网格,表示从 Gi 初始化的编辑对象。我们引入了一种新的体积正则化损失,直接在3D空间中操作,利用我们的3D表示的显式性质来加强原始和编辑对象的全局结构之间的相关性。
2023-07-01 09:27:31 760
原创 [PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成
Fig 1. 原始图像(上)和离散VAE重建图像(下)的比较。编码器对空间分辨率进行8倍的下采样。虽然细节(例如,猫毛的纹理、店面上的文字和插图中的细线)有时会丢失或扭曲,但图像的主要特征通常仍然是可识别的。我们使用8192的大词汇量来减轻信息的丢失。
2023-06-29 08:38:02 1552
原创 Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning
我们的方法可以很容易地与个性化的T2I模型集成(例如,DreamBooth[39],它以3-5张图像作为输入,并返回一个个性化的T2I模型),直接对它们进行细化。我们的方法还可以与T2I适配器[29]和ControlNet[52]等条件T2I模型集成,在不需要额外训练成本的情况下对生成的视频进行不同的控制。大量的实验证明了我们的方法在广泛的应用中取得了显著的效果。相比之下,我们的方法生成了时间连贯的视频,保留了输入视频中的结构信息,并与编辑过的单词和细节保持一致。每个设计都是单独的,以分析其影响。
2023-06-28 08:37:56 1848
原创 Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器
此外,我们的方法更忠实于输入细节,例如,Video instruction-pix2pix完全按照提供的姿势绘制舞者(图9左),并显示输入视频中出现的所有滑雪人员(对比图9最后一帧(右)),与Tune-A-Video相比。我们对该领域的贡献包括提出了zero-shot文本到视频合成的新问题,展示了文本到图像扩散模型用于生成时间一致视频的使用,并提供了我们的方法在各种视频合成应用中的有效性的证据。我们证明了我们的方法在各种应用中的有效性,包括条件和专业视频生成,以及视频指导-pix2pix,即指导视频编辑。
2023-06-27 16:27:02 1819
原创 [CVPR 2023] Imagic:使用扩散模型进行基于文本的真实图像编辑
当任务是复杂的非刚性编辑时,如让狗坐,我们的方法明显优于以前的技术。相比之下,微调从输入图像中施加的细节不仅仅是优化的嵌入,允许我们的方案在η的中间值中保留这些细节,从而实现语义上有意义的线性插值。与其他编辑方法相反,我们的方法可以产生复杂的非刚性编辑,可以根据要求改变图像内对象的姿势,几何形状和/或组成,以及更简单的编辑,如风格或颜色。我们使用两种不同的最先进的文本到图像生成扩散模型来证明我们的框架是通用的,可以与不同的生成模型相结合:Imagen[53]和Stable diffusion[50]。
2023-06-25 22:17:16 2031 1
原创 Diffusion Models: 方法和应用的综合调查 【01】Diffusion Models基础
我们还讨论了将扩散模型与其他生成模型相结合的可能性,以增强结果。我们进一步回顾了扩散模型在计算机视觉、自然语言处理、时间数据建模以及其他科学学科的跨学科应用等领域的广泛应用。对于每个任务,我们提供了一个定义,描述了如何使用扩散模型来解决它,并总结了相关的先前工作。本调查旨在为扩散模型的状态提供一个情境化的、深入的观察,确定重点领域,并指出进一步探索的潜在领域。
2023-06-24 08:46:40 530
原创 【NeRF大总结】基于NeRF的三维视觉年度进展报告
NeRF:基于可微体渲染和神经场三维表征的新视角合成方法。隐式神经场:用基于坐标的全连接网络标识颜色场与体密度场体渲染公式:将颜色场合体密度场渲染为图像。
2023-06-21 09:06:56 7103
原创 Stable Diffusion: 利用Latent Diffusion Models实现高分辨率图像合成
We have presented latent diffusion models, a simple and efficient way to significantly improve both the training and sampling efficiency of denoising diffusion models without degrading their quality.Based on this and our cross-attention conditioning mecha
2023-06-20 10:09:27 1713
原创 ubuntu下docker配置:python,cuda
后面跟着的’-zxvf’是参数。安装部分$ make altinstall 命令:这里使用了altinstall,你也可以使用install,代价是它可能会更改自带的python3安装,使得卸载变得困难,甚至使自带的python3变得不可用,但一般不会出现这些恶性错误。配置编译参数:’–prefix=/opt/python3.9’用来指定安装位置,’–with-pydebug’是添加调试工具用的,’–enable-optimizations’用来对编译结果进行优化,提高运行效率的,但会增加编译时间。
2023-06-07 15:09:48 1371
原创 图像生成 FID 分数计算 python 实现
FID(Frechet Inception Distance)分数是一种用于衡量生成模型与真实数据集之间相似性的指标,它是通过计算生成的样本与真实样本在Inception网络中特征表示上的差异程度来计算得出的。FID分数越低,表示生成的样本与真实样本之间的差异越小,生成模型的性能越好。
2023-06-02 10:40:17 4239 2
原创 图像相似性评估:SSIM、PSNR,MES, python代码实现
SSIM : 值越接近1,说明图像越相似PSNR:PSNR越大说明失真越少,生成图像的质量越好MES:MSE值越小,说明图像越相似 需要注意的是,这些相似性评估指标的计算,要求图像具有相同的shape。
2023-05-31 18:09:33 1744
原创 CLIP score:Text-image similarity 以及image-image similarity 评估代码实现
利用CLIP 计算 Text-to-Image task中 生成的图像与对应的prompt的相似程度,该指标越大越好。对应的输出分数是分别对应了test.jpg和的相似程度。值得注意的是,预训练模型需要提前下载好,并放在项目目录下。(可能需要逐个文件下载)
2023-05-31 17:11:27 6712 6
原创 [论文解析] Debiasing Scores and Prompts of 2D Diffusion for Robust Text-to-3D Generation
In this paper, we formulate and identify the sources of the Janus problem in zero-shot text-to-3D generation. In this light, we argue that debiasing the prompts and raw 2D scores is essential for the realistic generation. Therefore, we propose two methods
2023-04-06 10:36:48 624 1
原创 [论文解析] Anti-DreamBooth: Protecting users from personalized text-to-image synthesis
This paper reveals a potential threat of misused DreamBooth models and proposes a framework to counter the threat. Our solution is to perturb users' images with subtle adversarial noise so that any DreamBooth model trained on those images will produce poor
2023-04-05 18:31:30 517
原创 [论文解析] DreamBooth3D: Subject-Driven Text-to-3D Generation
In this paper, we have proposed DreamBooth3D , a method for subject-driven text-to-3D generation. Given a few (3-6) casual image captures of a subject (without any additional information such as camera pose), we generate subject-specific 3D assets that als
2023-04-04 11:30:00 1231
原创 [论文解析]FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model
We propose a training-free energy-guided conditional diffusion model, FreeDoM, to address a wide range of conditional generation tasks without training. Our method uses off-the-shelf pre-trained time-independent networks to approximate the time-dependent e
2023-04-03 12:19:13 1096
原创 [论文解析]Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation
提出了一种新的框架,将文本到图像合成应用到图像到图像的翻译领域——给定一个引导图像和一个目标文本提示作为输入,我们的方法利用预先训练好的文本到图像扩散模型的力量来生成一个符合目标文本的新图像,同时保留引导图像的语义布局。
2023-03-31 12:14:40 1152
原创 [论文解析] P+: Extended Textual Conditioning in Text-to-Image Generation
本文在文本到图像模型中引入了一个扩展的文本条件空间,称为P+。该空间由多个文本条件组成,来自每一层的提示,每个对应于扩散模型的去噪U-net的一层。扩展空间为图像合成提供了更大的解缠和控制。进一步提出了扩展文本倒置(XTI),将图像倒置为P+,并用每层标记表示。
2023-03-30 11:00:56 901
原创 [论文解析] Cones: Concept Neurons in Diffusion Models for Customized Generation
本文揭示了扩散模型参数空间中的概念神经元。我们发现,对于一个给定的主题,有一小群概念神经元主导着这个主题的生成。关闭它们将产生基于文本提示的给定主题在不同上下文中的演绎。为不同的主题连接它们可以生成结果中的所有主题。进一步的微调可以增强多主题生成能力,这是第一个在一张图像中生成多达四个不同主题的功能。
2023-03-29 10:33:43 653
原创 【论文解析】NeRFInvertor: High Fidelity NeRF-GAN Inversion for Single-shot Real Image Animation
在图像空间监督下,经过微调的模型很好地重构了原始视图中的输入,但容易对输入图像进行过拟合,导致新视图合成图像产生伪影,导致被测对象的三维几何不准确。与现有的图像空间损失Limg相比,在图10和表2中显示了所提出的隐几何正则化(Limp)、显式几何正则化(Lexp)和掩码正则化(全模型)的影响。为了去除伪影并获得更精确的几何形状,我们通过一个掩模来增强几何和图像的正则化,这是基于输入图像上的抠图信息。通常情况下,生成的图像与真实图像之间会有差距,因为在NeRF-GANs中,真实图像大多是域外样本。
2023-01-31 19:24:48 662 2
原创 [总结] DDPM Diffusion模型各阶段训练和采样过程方案细节和代码逻辑汇总
下面是论文《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models》的代码逻辑进行梳理,code 链接:https://github.com/openai/glide-text2im/Classifier-Free Diffusion Guidance 中的这张图也表达相同的意思,模型增加分类器指导强度时发生的Inception score增加和样本多样性减少的简化表现。
2023-01-06 20:27:12 5116 1
原创 [论文解析] NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors
虽然公式化的优化适用于任何场景,但它更适合于以物体为中心的图像,因为它采取的基本假设是,场景从任何视图都具有完全相同的语义,这对于由于视图变化和遮挡而具有复杂配置的大型场景来说是不正确的。在图3的顶行中,我们显示了从左侧的输入图像中生成的带有标题“产品集合”的图像。虽然它们的语义相对于语言描述是高度准确的,但是生成的图像在其视觉模式中具有非常高的方差,并且与输入图像的相关性很低。首行:虽然它们的语义相对于语言描述是高度准确的,但是生成的图像在其视觉模式中具有非常高的方差,并且与输入图像的相关性很低。
2023-01-03 17:59:15 1143
原创 [论文解析] NeRF-Art: Text-Driven Neural Radiance Fields Stylization
不同于现有的方法,在风格化过程中需要网格引导或在风格化中捕获不足的几何变形和纹理细节,我们的方法同时调节其几何和外观以匹配所需的风格,并仅通过文本引导显示几何变形和纹理细节的视觉愉悦结果。CLIP-NeRF风格化的NeRF使用绝对方向损失,我们只在鼻子和头发上看到了足够的“野兽派”风格的风格化,但男人的脸颊还没有完全风格化。(不同于以前的方法,要么缺乏足够的几何变形和纹理细节,要么需要网格来引导风格化,我们的方法可以将3D场景转移到目标风格,其特征是所需的几何和外观变化,而无需任何网格引导)
2022-12-27 13:37:48 1269 1
原创 [论文解析] Diffusion Guided Domain Adaptation of Image Generators
正如提示符所描述的,我们的模型有更多电影般的照明。我们利用预先训练的大规模扩散模型的强大功能,并基于最近提出的评分蒸馏采样技术[38],其中文本到图像的扩散作为一个冻结的、有效的评论家,预测图像空间编辑。选择的图层越少,模糊的感觉就会消失,头发的细节也会得到更好的保存。如果我们一起优化生成器层,可能会出现不满意的情况,即使用高层次的整体结构引导损失来更新浅层和详细的生成器层,导致生成的图像模糊。图7:较大的范围可以实现结构变化,并增加图像对目标域的保真度,而较小的范围关注局部变化,并倾向于对源域的保真度。
2022-12-14 20:43:19 1834
原创 浅谈人工智能生成内容(AIGC)
但目前国内的中文语言大模型在开源一块缺少高质量的语料数据,导致中文版的 AI 在不同话题的写作质量上参差不齐;同时,国内的文字从业者在人力成本上普遍低于海外欧美发达国家,AIGC 在内容生成一块替代人力的节约成本也明显低于海外市场。落地的 AI 在涉及与人博弈的场景中,AI 所提供的服务成本必须在相较于人力成本上有明显优势,才会被现有行业所接受。但更多的人相信,AIGC 会改变现代生产与生活的方方面面,因为 AIGC 所解决的问题是现存的、而非假设的。ZMO.AI 是国内最早成立的 AIGC 公司之一。
2022-12-14 15:44:48 1795
原创 [论文解析]CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields
利用预训练的CLIP 模型来学习两个code mappers, 用于将CLIP 特征映射到 用于修改形状和外观的code.具体地,给定一个文本提示或者一个样本图像 作为我们的condition,我们用预训练的CLIP模型提取特征,并将特征提供给 code mappers,由此在潜在空间中产生局部位移以编辑形状和外观code.我们设计了基于CLIP的损失来加强输入约束和输出渲染之间的CLIP空间一致性,从而支持高分辨率的NERF操作。
2022-12-13 15:40:01 979
原创 [l论文解析]Classifier-Free Diffusion Guidance
无分类器指导可以被认为是没有分类器的分类器指导,我们的无分类器指导的有效性证实了**纯生成扩散模型能够最大化基于分类器的样本质量度量,同时完全避免分类器梯度。我们的无分类器指导方法最实用的优点是它的极端简单:它只需要在训练期间更改一行代码—随机去掉条件—以及在抽样期间—混合条件和无条件的分数估计。相比之下,分类器指导使训练管道复杂化,因为它需要训练额外的分类器。在已部署的模型中可能会有负面影响,因为在某些数据部分在其他数据上下文中没有得到充分表示的应用程序中,样本多样性对于维护应用程序非常重要。
2022-12-12 15:34:39 4774
原创 [论文解析]DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
为了从文本合成一个场景,我们初始化一个具有随机权重的NeRF类模型,然后从随机的摄像机位置和角度重复渲染该NeRF的视图,使用这些渲染作为封装在Imagen周围的得分提取损失函数的输入。相反,我们的MLP参数化了表面本身的颜色,然后通过我们控制的照明来照亮它(这个过程通常称为“着色”)。和Dreamfields的不同:我们采用了类似于Dream Fields的方法,但将CLIP替换为2D扩散模型蒸馏产生的损失。我们的工作建立在文本到图像的扩散模型上,在文本嵌入y的基础上学习。
2022-12-11 22:49:39 6483 2
原创 [论文解析] Diffusion Models Beat GANs on Image Synthesis
我们已经表明,扩散模型是一类具有固定训练目标的基于似然的模型,可以获得比最先进的GAN更好的样本质量。在上述推导中,我们假设基础扩散模型是无条件的,即p(x)模型。我们看到,在足够高的尺度下,引导无条件模型可以非常接近非引导条件模型的FID,尽管直接使用类标签进行训练仍然有帮助。扩散模型是一类基于可能性的模型,最近被证明可以产生高质量的图像[56,59,25],同时提供理想的属性,如分布覆盖、固定的训练目标和易于扩展。注意,对于每个时间步t,它们指的是单独的函数,并且在训练时,模型必须以输入t为条件。
2022-12-11 16:47:38 3966
原创 [论文解析] Denoising Diffusion Probabilistic Models
扩散概率模型(为方便起见,我们将其称为“扩散模型”)是一种参数化的马尔可夫链,使用变分推理训练产生有限时间后与数据匹配的样本。学习该链的跃迁来逆转扩散过程,这是一个马尔可夫链,逐步向采样的相反方向的数据添加噪声,直到信号被破坏。当扩散由少量高斯噪声组成时,将采样链跃迁设置为条件高斯也就足够了,允许特别简单的神经网络参数化。
2022-12-10 20:37:26 1049
原创 [论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models
在本文中,我们引入了一种精确的反演技术,从而方便了直观的基于文本的图像修改。(i)扩散模型的关键反演。我们为每个时间戳使用单个关键噪声向量,并围绕它进行优化。我们证明了直接反演本身是不够的,但确实为我们的优化提供了一个很好的锚定。(ii)空文本优化,我们只修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。这允许保持模型权重和条件嵌入不变,因此可以应用基于提示的编辑,同时避免对模型权重进行繁琐的调优。在各种图像和提示编辑上进行了广泛的评估,显示了对真实图像的高保真编辑。
2022-12-09 21:52:40 4037
原创 [论文解析] HeadNeRF: A Realtime NeRF-based Parametric Head Model
在本文中,我们提出了一种新的基于nerf的参数化头部模型HeadNeRF,它将神经辐射场集成到头部的参数表示中。它可以在GPU上实时渲染高保真的头部图像,支持直接控制生成的图像的渲染姿态和各种语义属性。与现有的相关参数化模型不同,HeadNeRF采用神经辐射场代替传统的三维纹理网格作为新的三维代理,使得HeadNeRF能够生成高保真图像。克服的困难:原始NeRF的渲染过程计算量大,阻碍了参数NeRF模型的构建
2022-12-07 22:01:02 1254
原创 元宇宙技术在几年后质变,迎来体验终端世界
京东集团高级副总裁、京东探索研究院院长陶大程京东集团高级副总裁、京东探索研究院院长陶大程是京东“产业元宇宙”的提出者和构建者。他谈到,希望通过构建元宇宙供应链降低实体经济参与数字经济的门槛,帮助实体经济完成数实融合的商业转型,创造经济价值和社会价值。除了游戏、娱乐、虚拟NFT等场景,陶大程认为元宇宙更大的价值体现在产业上,一方面如果我们能够做到全息人机交互和精准的数字重建、数字仿真,对整个产业界都会有极大效率提升;
2022-11-21 20:35:42 515
原创 【2020 ECCV】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
To render this neural radiance field (NeRF) from a particular viewpoint:An overview of our neural radiance field scene representation and differentiable rendering procedure:(x, d) → (c,σ)The expected
2022-11-17 20:49:33 353
Simple_Rules_AI.pdf
2020-05-27
Hands-onPythonTutorial.pdf
2020-05-27
工程领域大数据和人工智能原则.pdf
2020-05-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人