图像视频生成大模型
文章平均质量分 77
从AIGC一线的算法工程师出发,对图像视频生成大模型在算法层面进行分析,微调实践,对前沿算法进行跟进,对webui,comfyui以及fooocus等应用进行实践,以及和sd相关的应用改进算法,帮助从业者和学生快速入门AIGC文生图文生视频领域。
Kun Li
自古山高水远路,无一不为风尘苦。
展开
-
ImageReward:learning and evaluating human preferences for text-to-image generation
随机选择t而不是使用最后一步的原因是,如果只保留最后一个去噪步骤的梯度,训练被证明是非常不稳定的,结果是不好的。提示选择和图像收集,该数据集利用了来自diffusiondb的多样化真实用户提示的选择,产生了10000个候选提示,每个提示都带有4-9个从diffusiondb中抽样的图像,从而产生了177304个用于标记的候选对。语言模型的RLHF不能直接应用在diffusion中,现有的LDM人类反馈微调方法都是间接的,可以分为两类,1是使用reward模型获取新的数据;(例如封面图中的e和f)原创 2024-04-25 11:24:14 · 304 阅读 · 0 评论 -
stable diffusion QA
任务的话,如果记输入的干净图像是 x0,经过t步加噪之后的带噪图像为 xt,mask为 m,通常会有一步 x^t=xt⊙m+x0⊙(1−m)的compse操作,同时U-Net的输入通常会有一个额外的channel用于mask的concat,然后再将 x^t和 m的concatenation送入U-Net预测噪声,这样U-Net学习到的分布就是mask区域内部的,同时模型也能够接受。Q:如果是图像修复任务,本身输入含有mask的图像,如果带着mask的图像进行加噪,去噪,那去噪后的图像岂不是还带着mask?原创 2024-04-24 14:50:23 · 621 阅读 · 0 评论 -
PixArt-σ:Weak-to-strong training of diffusion transformer for 4k text-to-image generation
PixArt-Σ在其前…PixArt-σ提出了一种更为激进的压缩策略KV compression,其提出的动机在于计算attention中,key和value存在一定的特征冗余,换言之,如果用压缩后的key和value进行计算,并不会对PixArt-σ生成的结果带来太大的性能损失。值得注意的是,一旦分辨率发生变化,原有的positional encoding(PE)也无法继续适用,这里PixArt-Σ用到了DiffFit中的一个PE Interpolation技巧,操作很简单,就是将原来的PE。原创 2024-04-11 17:10:48 · 936 阅读 · 0 评论 -
PixArt-β:Fast and controllable image generation with latent consistency models
controlnet是unet的设计范式,因此pixart提出了controlnet-transformer,将diffusion transformer copy一份作为条件信号的输入,controlnet-transformer中的zero conv则用zero linear layers代替。PixArt-β对现有的几个lcm-based方法进行了对比,可以看到,在1024x1024分辨率下的图片生成,用一张A100推理仅0.5s。对基础的pixart-α升级,使其支持LCM和Controlnet。原创 2024-04-11 16:59:22 · 384 阅读 · 0 评论 -
PixArt-α:Fast Training of diffusion transformer for photorealistic text-to-image synthesis
第二个变动是将原始的AdaLN改成了AdaLN-single,原始的DiT中,每个DiT block中均有一个单独的AdaLN,由于这里需要一个MLP来得到6个scale和shift,所以参数量还是很多(27%),而AdaLN-single是所有的DiT blocks都共享一个MLP,然后每个DiT block再加上一个可训练的embedding,这样即实现了每个DiT block参数有所区分,又减少了参数量。进过这两个变动,预训练模型就转变为一个文本引导的条件扩散模型,这个阶段用256x256训练。原创 2024-04-11 16:52:22 · 608 阅读 · 0 评论 -
open-sora
整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT模型,在训练阶段首先采用预训练好的VAE的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本embedding一起训练STDiT,在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声与提示词prompt embedding一起输入STDiT中,得到去噪之后的特征,最后输入到VAE的解码器中,解码得到视频。LLaVA-1.6-Yi-34B的多模态LLM来实现Video-Caption,生成高质量的视频文本对。原创 2024-04-11 14:28:26 · 862 阅读 · 0 评论 -
Latte:Latent diffusion transformer for video generation
假设有一个潜在空间中的video clip VL∈FxHxWxC,现将VL转成tokens,记Z'∈nf x nh x nw xd,F表示帧数,HWC表示潜在空间中视频帧的高宽通道数,video clip在潜在空间中的token总数是nf x nh x nw,d表示每个token的维度,将spatial-temporal positional embedding p添加在Z'中,得到Z=Z'+p,作为transformer backbone的输入。2.扩散过程在视频的潜在空间中进行,以建模潜在的时空信息。原创 2024-04-11 11:01:59 · 946 阅读 · 0 评论 -
VideoGPT:Video Generation using VQ-VAE and Transformers
对于视频展示,选择哪种模型比较好?在没有空间和时间溶于的降维潜在空间中进行自回归建模是否优于在所有空间和时间像素级别上的建模?选择前者:自然图像和视频包括了大量的空间和时间冗余,这些冗余可以通过学习高分辨率输入的去噪降维编码来消除,例如,空间和时间维度上的4倍降采样会导致64倍的分辨率降低,在潜在空间建模,不是像素空间,可以提高采样速度和计算需求。第一阶段:为了学习一组离散的潜在code,首先在视频数据上训练一个VQVAE,编码器结构包括一系列在时空维度上进行下采样的3D卷积,如图所示,原创 2024-04-10 20:13:01 · 591 阅读 · 0 评论 -
Brushnet:a plug-and-play image inpainting model with decomposed dual-branch diffusion
额外分支的输入包括噪声潜在向量,mask图像的潜在向量和下采样后的mask,串联输入模型,噪声潜在向量在生成过程中提供信息,帮助brushnet增强mask图像特征的语义一致性,mask图像潜在向量通过VAE从mask图像中提取,与预训练的UNet的数据分布对齐,为了确保mask大小和潜在向量和mask图像潜在向量对齐,使用立方插值对mask进行下采样。2.专用修复模型,通过扩展基础扩散模型的输入通道维度,以整合提供的损坏图像和mask,对专门设计的图像修复模型进行微调。原创 2024-04-10 19:44:43 · 565 阅读 · 0 评论 -
基于sd的单分支和双分支方案
单分支:1.ip-adapter2.photomaker3.CLE-Diffusion4.powerpaint5.videocomposer6.animateanything7.pixeldance8.aniamtediff双分支: 1.controlnet2.instanceid3.brushnet4.ootdiffusion5.MagicAnimate7.animateanyone原创 2024-04-10 17:58:24 · 225 阅读 · 0 评论 -
TAIYI-DIFFUSION-XL:advancing bilingual text-to-image generation with lvlm support
基础模型是一个视觉-语言大型模型,类似于clip,能够有效的对齐文本和图像,从预训练英文的clip开始,并扩展其训练以适应双语和高质量图形-文本数据的要求,训练的第一阶段涉及处理大规模的双语数据集,包括Laion,Wukong,重点放在数据清洗和质量增强上,第二阶段在丰富的数据集上训练,强调高质量图像文本对。一个高质量图像文本对(X,Y),其中X代表图像,Y是描述性文本,与传统数据集中离散标签不同,我们数据集强调全面描述,捕捉材料,风格,颜色和空间布局。训练基于sdxl,学习率1e-5,余弦。原创 2024-04-10 14:18:17 · 142 阅读 · 0 评论 -
photomaker:customizing realistic human photos via stacked id embedding
我们的解决方案也非常简单,如图所示,首先,我们希望在训练时,我们的输入图像和输出的目标图像都不来源于同一个图像。Stacked ID embedding中存取的每个embedding它们的图像来源可能姿态不同,表情不同以及配饰不同,但ID都是相同的,因此可以隐式的将ID与其他与ID无关的信息解耦,以使其只表征待输出的ID信息。接下来的例子中我们可以看到,我们固定这个拜登对应的embedding权重为1.0,调大奥巴马的对应的embedding的权重,可以看到图像长得会更加像奥巴马。对用户来说非常不友好。原创 2024-04-10 11:43:30 · 1475 阅读 · 0 评论 -
控ID型sd生成 - AI写真
1.lora2.dreambooth3.串联型:facechain4.串联型:easyphoto5.instanceid6.photomaker7.ip-adapter-faceid原创 2024-04-10 10:20:42 · 179 阅读 · 0 评论 -
Diffusion model alignment using direct preference optimization
开始训练时,reference model和policy model都是同一个模型,只不过在训练过程中reference model不会更新权重,目标是下面的公式最大,即希望左半部分和右半部分的margin越大越好,左半部分的含义是good response相较于没训练之前的累计概率差值,右半部分代表bad reponse相较于没训练之前的累计概率差值,yw某条偏好数据中好的reponse,yl某条偏好数据中差的reponse。LLM两个阶段,1.预训练,2.对齐,微调以使其与人类偏好更好的对齐。原创 2024-04-09 20:10:56 · 302 阅读 · 0 评论 -
SD3:Scaling rectified flow transformers for hhigh-resolution image synthesis
sd3先在256x256尺寸下训练,但最终会在1024x1024为中心的多尺度上微调,这就需要MM-DiT的位置编码需要支持变尺度,sd3采用的是插值和扩展。MM-DiT的模型参数主要是模型的深度d,即transformer block的数量,此时对应的模型中间特征维度大小是64xd,这意味着当模型的深度d增大到rxd,模型的参数量会增大到r的三方,比如深度为24的MM-DiT参数量为2B,最大的MM-DIT深度为38,其参数量为2Bx(38/24)^3=8B。sd3基于DiT,参数量为8B。原创 2024-04-09 11:28:07 · 1248 阅读 · 0 评论 -
InstanceID:zero-shot identity-preserving generation in sconds
人脸ID涉及更微妙的语义,需要更高标准的细节和保真度。这些特征可以作为文本嵌入的一般补充,但对于需要精确ID保留的任务来说,更强的语义和更高的保真度至关重要。Image Adapter. 在预训练文本到图像扩散模型中的图像提示能力显著增强了文本提示,特别是对于那些用文本难以描述的内容,采用了一个类似于IP-Adapter的策略用于图像提示,引入一个轻量级的adapter模块,解耦的cross-attention,以支持图像作为提示,不同之处在于我们使用ID嵌入作为图像提示,而不是粗略对准的CLIP嵌入。原创 2024-03-28 20:47:26 · 864 阅读 · 0 评论 -
comfyui 插件
最近发现很多人在搬运我的文章,,,,那我也发 前言:相信大家玩 Stable Diffusion(以下简称SD)都是用的 web UI 操作界面吧,不知道有没有小伙伴听说过 ComfyUI。代码结构上,architecture都是原作者的代码,最核心的在nodes.py中,requirements.txt中是需要安装的库,安装comfyui的插件很简单,主要就是将其放置在custom_nodes目录下即可,实践一个简单的comfyui的插件,以。为例,也是一个很简单的例子。在__init__.py中。原创 2024-03-28 16:47:07 · 505 阅读 · 0 评论 -
comfyui api
stable diffusion comfyui的api使用教程,为什么要使用comfyui的api?comfyui的api设计,其中comfyui-api写的不错的,用的还是websocket,cog-comfyui可以同时把comfyui启起来。stable diffusion comfyui的api使用教程_厦门外里科技的技术博客_51CTO博客。comfyui api接口文档_51CTO博客_api接口文档怎么用。comfyui api接口文档,comfyuiapi接口文档。原创 2024-03-28 11:08:05 · 418 阅读 · 0 评论 -
comfyui 代码结构分析
comfyui的服务器端是用aiohtttp写的,webui是fastapi直接构建的,但是其实comfyui的这种设计思路是很好的,也许我们不需要在后端起一个复杂的前台,但是可以借助json结构化pipeline,然后利用node节点流把整个流程重新映射出来。comfy中实现了具体的方法,当安装外部插件时,新增的后端代码放在custom_nodes中,前端代码放在web中,comfyui中的前端代码都在web/extension/core中,还算是一个前后分开的项目。原创 2024-03-27 17:23:31 · 558 阅读 · 0 评论 -
OOTDIffusion:Outfitting fusion baed latent diffusion for controllable virtual try-on
给定目标人体图像x∈3xHxW和输入服饰图像g∈3xHxW,OOTDiffusion能够生成逼真的穿着图像Xg,我们利用openpose和humanparsing生成带蒙版的人体图像xm,并使用VAE编码器将其转换为潜在空间中的表示delta(Xm)∈4xhxw,其中h=H/8,w=W/8,降采样8倍,我们将dalta(Xm)与高斯噪声4xhxw连接起来,作为去噪UNet的输入潜在表示zT∈8xhw,在去噪UNet的第一个卷积层中添加了4个零初始化的通道,以支持输入的8个通道。原创 2024-03-22 16:29:18 · 943 阅读 · 0 评论 -
sd-scripts lora训练IP形象
目前主流的方式一般是dataset-tag-editor和lora_scripts来训练的。我就lora-scripts和sd-scripts稍作了修改,依然基于基本的toml文件来训练lora。1.2 扣完图,opencv的findContours找出来边缘裁出来,当然也不是都好,后续还是要自己处理;sd-scripts,只用了caption打标,加了触发词,并对caption的标签做了初步修改。没有统一尺寸,用的sd-scripts中统一尺寸操作。lora-scripts,V1一样的数据,原创 2024-03-22 11:03:29 · 226 阅读 · 0 评论 -
lora-scripts 训练IP形象
CodeWithGPU | GitHub AI算法复现社区,能复现才是好算法。直接秋叶的lora-scripts,做的非常专业。CodeWithGPU | 能复现才是好算法。主要就是把其中识别错误的tag做一些替换。1.wd 1.4打标。配置一下数据集和模型。原创 2024-03-22 10:36:27 · 391 阅读 · 0 评论 -
lora-scripts代码分析
用fastapi写的前后端,确实是好代码,没用webui了,这样可以直接在内网就打开页面,还是非常实用的,以往用FastAPI封的很简单,这块值得学习。原创 2024-03-22 10:34:42 · 224 阅读 · 0 评论 -
[SaaS] AIGC营销创意应用方向
U设计周2023,阿里妈妈重磅推出创意工具,可变字体,虚拟人3大AI创意能力升级,创意生成效率,创意质量以及多元经营场景的适配率都得到了质的提升,极致的满足着品牌日益精细化的创意诉求。以大促会场设计为例,介绍我们设计师如何在营销活动设计中,构建AI工作流与多元化的AIGC能力应用,来一起一探究竟吧~🔍。设计不用等,30秒搞定生鲜零售设计!营销大促、品类项目、氛围计划、市场营销传播、门店美陈空间标准、阿里妈妈 X U设计周|AI 设计赋能商业狂飙!用AI做大促设计 | 轻松又高效,躺着也能做设计。原创 2024-03-18 11:39:38 · 648 阅读 · 0 评论 -
基于stable diffusion的IP海报生成
,无需训练Lora模型!dataset-tag-editor,逐个检查,概括要点,一是自然语言+关键词描述,两个相互结合,要把画面中出现的元素都打上,且那想让AI记住什么,就不要去打那个关键词,例如熊本熊黑色红色腮红,那些特征性的东西不要去打。加触发词,我发现有的教程说可以不加,但是我发现固定IP 的话,加上等于触发,没尝试过不加,但是我都会加上。白底IP图,场景IP结合图,单独场景图,训练尺寸统一,512x512,512x768,768x1152,如果尺寸不是64的倍数,会对图片进行裁剪。原创 2024-03-18 11:39:05 · 995 阅读 · 0 评论 -
[SaaS] 盒马营销设计
看盒马设计营销创意设计师们如何尝试将AIGC应用到日常工作中。AIGC浅尝,探索如何将它融入到营销创意设计中?原创 2024-03-18 11:06:52 · 181 阅读 · 0 评论 -
[SaaS] 母亲节海报设计
人工智能技术正在不断发展和演变,因此设计师需要时刻保持学习和更新的状态,以跟上技术的发展,帮助自己创造出更加创新和独特的设计作品。提升AI可控 & 出图质量。原创 2024-03-18 10:19:16 · 142 阅读 · 0 评论 -
[SaaS] 城市消费券项目
面对时代趋势,团队早在22年底就开展了AIGC在「电商行业领域」的研究和探索,旨在运用新技术帮助团队提升工作效率和质量,高效地解决业务难题。「AIGC实战」城市消费券项目经验。原创 2024-03-15 17:50:23 · 207 阅读 · 0 评论 -
[SaaS] AI试衣间
淘宝AI试衣间,1秒换装,立即解锁不一样的你!我在淘宝用AI试了1000件衣服~原创 2024-03-15 16:09:38 · 142 阅读 · 0 评论 -
[SaaS] 淘宝设计AI
Midjounery出创意视觉大方向—>Topaz Photo AI 高清处理—>PS beta 优化+修改局部画面—>SD细节融合+优化材质—>Found快速合成超级符号.下面是一个完整的品牌营销海报设计流程,AIGC起到了巨大作用,但是仍然很难去一步解决这个问题,还是逐步修改的一个过程。“淘宝设计+AI” 让国际大牌造世界。双11超级品牌 超级发布。原创 2024-03-15 16:04:09 · 238 阅读 · 0 评论 -
Midjourney视觉垫图
midjourney以图生图,从sd角度出发,将图像信息输入的方式有很多种,包括ip-adapter,在fooocus中针对midjourney中的功能做了对比,midjourney应该不是将图片先转成prompt,在拼prompt输出的,sd中的img2img,实际上是将图片通过vae得到image embedding,再和latent拼在一起得到输出。一、设计师前言随着数字时代的到来,人工智能正在被广泛应用于各个领域,其中艺术和设计领域的AI应用备受瞩目。原创 2024-03-15 15:12:53 · 572 阅读 · 0 评论 -
[SaaS] 家作->装修设计师
构建用户对未来家的想象,是家装家居多年来持续探索的方向,如今利用AI技术,我们设计了一款搭配产品,用户只需提供心仪的商品图片,选择自己想要的风格,便可快速生成一张围绕该商品的场景搭配,当前主要面向商家,未来希望人人都可以用它来装修自己的家。一张商品图,结合用户的自定义输入,便可生成多张场景效果。生图:核心逻辑是扩图,会在淘宝海量的商品图上训练模型,再结合行业运营对风格趋势的把控,在根据商品的特征及用户的选择,先搭配软装(controlnet),再搭配硬装环境(inpainting),最后渲染出图。原创 2024-03-15 11:49:22 · 368 阅读 · 0 评论 -
stable diffusion的额外信息融入方式
conditioning怎么往sd中添加,一般有三种,一种是直接和latent拼一下,另外很多是在unet结构Spatialtransformers上加,和文本特征一样,通过cross-attention往unet上加,这里还需要注意一点,在文本嵌入时,q是可学习的,k和v都是文本embedding。通过解耦cross-attention的方式,clip提取图像特征,文本输入一个crossattention,图像输入一个cross-attention。原创 2024-03-06 15:22:42 · 374 阅读 · 0 评论 -
outpainting的几种实现方式
这是一个基于stable diffusion的扩展绘画工具(outpainting). Contribute to WatchTower-Liu/diffusion-outpainting development by creating an account on GitHub.大部分扩图还是第一种,init_img+init_mask,把原图的区域扩大,扩大后的区域可以用马赛克或者噪声图代替,制作只有原图的mask,尺寸和扩大的图片尺寸一直,再进行inpainting即可。原创 2024-02-04 17:53:03 · 1117 阅读 · 0 评论 -
Style Aligned image generation via shared attention
可以应用于任何基于注意力的文本到图像扩散模型上,在扩散过程中通过从每个生成的图像到batch中的第一个图像进行最小的attention sharing operations,可以得到一组具有一致风格的图像,此外利用扩散反演,可以根据参考风格图像生成具有一致风格的图像,无需优化或微调。QKV分别为从集合Li的深层特征投影中得到的query,key和value,full attention sharing可能会影响生成图的质量,会导致图像之间的内容泄露,例如图5所示,图像集中的独角兽染上了恐龙身上的绿色颜料。原创 2023-12-30 16:09:09 · 595 阅读 · 1 评论 -
stable diffusion webui之lora调用
例如<lora:C4D_geometry_bg_v2.5:0.8>;(分数不一定要取到1,0.8也行);2.引用时一定要使用。原创 2023-12-20 17:24:41 · 554 阅读 · 0 评论 -
CLE Diffusion:Controllable light enhancement diffusion model
首先通过计算平均像素值来提取正常光图像的原始亮度级别lamda,使用一个随机正交矩阵将平均值编码成illumination embedding,照明embedding进一步嵌入到unet中,使用亮度控制模块,Film学习基于照明embedding的特征逐通道放射变换,然后,通过沿通道轴将特征分成两半,一个副本与特征相乘,一个副本与特征图相加。Angular color loss:增加亮度可以放大低光图像中的颜色失真,采用了一种颜色损失,鼓励增强图像y0的颜色和真实值y相匹配;全局和局部直方图均衡化;原创 2023-12-14 17:46:33 · 124 阅读 · 0 评论 -
MagicAnimate:Temporally consistent human image animation using diffusion model
MagicAnimate,使用Appearance encoder将参考图嵌入为Appearance embedding ya,然后将目标姿势序列,如DensePose,传入姿势控制网络Fp,提取运动条件yp,在这两个信号的基础上,训练视频扩散模型,将参考任务的身份根据给定的运动进行动画化,为了减轻一些片段之间的细微不连续性,采用一种简单的视频融合方法来提高过渡的平滑性,将整个视频分解为重叠的片段,并简单的对重叠帧的预测进行平均,引入了一种图像视频联合训练策略。TikTok和TED-talks数据集,原创 2023-12-14 15:00:13 · 226 阅读 · 0 评论 -
PowerPaint - A Task isworth one word:Learning with task prompts for highquality vesatile img inpaint
8个A100进行了25k迭代,bs为1024,lr为1e-5,OpenImage V6的语义分割自己作为多任务提示调整的主要数据集,根据Smartbrush,使用分割标签和blip生成局部文本描述,同时,将文本到图像生成任务视为inapinting,即mask掉所有内容,的特例,并使用LAION-Aesthetics v2 5+的图像和文本训练,在训练阶段,主任务和文本图像生成任务概率为80%和20%。图像上有的,一般像移除等,图像上没有的,向文本引导的重新生成。其中,1.文本引导的目标修复,看右边的图;原创 2023-12-14 11:08:16 · 849 阅读 · 0 评论 -
VideoComposer:Compositional video synthesis with motion controllability
3.时间条件,在temporal维度实现更精细的控制,引入了4个时间条件,a,motion vector,作为视频特定元素,运动向量被表示为二维向量,即水平和处置方向,编码了相邻两帧之间的像素级移动,如图3所示,从研所视频中提取标准的MPEG-4格式的运动向量;2.空间条件,a,单个图像,视频由连续的图像组成,单个图像通常会揭示该视频的内容和结构,给定视频的第一帧作为空间条件进行图像到视频的生成;用LDM的预训练来初始化,1.通过文本到视频生成预训练,专注于temporal建模;原创 2023-12-13 17:21:35 · 87 阅读 · 0 评论