图像视频生成大模型
文章平均质量分 78
从AIGC一线的算法工程师出发,对图像视频生成大模型在算法层面进行分析,微调实践,对前沿算法进行跟进,对webui,comfyui以及fooocus等应用进行实践,以及和sd相关的应用改进算法,帮助从业者和学生快速入门AIGC文生图文生视频领域。
Kun Li
自古山高水远路,无一不为风尘苦。
展开
-
mask controlnet
主要关注sd-webui-controlnet,作者很积极的在跟进和controlnet相关的一些算法,inpainting和mask controlnet是有区别的。直接pip安装vllm 0.6.1.post2,vllm-flash-attn 2.6.1,flash-attn 2.6.3,先用internvl-2b打标的,效果很差,后改成blip打标。而常规的基于mask的,这一侧直接就是mask,还是有本质区别的。直接使用diffusers的train_controlnet代码。原创 2024-09-24 20:13:26 · 41 阅读 · 0 评论 -
svd训练
本来是想仿照Admotiondirector和FL-Trainer写一个comfyui版本的svd训练的,其实已经开头了,但是想了一下时间有限,暂时搁置了,就拿svd_xtend库先训练吧,对于电商动效视频生成,目前我的集中点在:1.svd训练微调;2.考虑inpainting模式的i2v-adapter这种算法,是基于animatediff的,不过这类的参考资料本身其实并不多,从我的测评结果来看,并不算是很好的结果;EcommceVideoDataset数据集。原创 2024-09-19 16:37:23 · 48 阅读 · 0 评论 -
Flux1 模型
此外flux的VAE并不是直接采用sd3的VAE,而是重新训练了,模型结构一样,但参数不同,一个小细节就是sd3和flux的vae会对编码后的latent特征做评议和缩放,而不是之前vae仅做缩放,将latent特征分布的均值和方差归一化到0-1之间和扩散过程加的噪声在同一范围。最终Flux的模型大小是12B,比8B的SD3还大40%。Flux和sd3一样也采用了16通道的VAE,下面是一个512x512图像进过VAE压缩和重建的效果对比,从左到右以此为原图,sdxl,sd3和flux的重建图。原创 2024-09-19 10:18:23 · 355 阅读 · 0 评论 -
controlnet-masking
canny等将黑色视为空白区域,即纯黑色区域不受任何控制,但是对tile和depth,很难指定控制区域。只有左边有深度信息。原创 2024-09-14 10:12:34 · 44 阅读 · 0 评论 -
IP-adapter masking
通过masking来控制图片生成。原创 2024-09-13 14:30:39 · 295 阅读 · 0 评论 -
高反差保留DetailTransfer测评
它的工作原理是:只保留显示图像中的高频信息(即图像中的细节和边缘区域),而图像的其余部分则用中性灰填充。ic-light是一个能重绘画面光影的节点,但是在重绘的过程中,难免会将图像本身的细节进行重绘,尤其是在电商的场景中,文字和商品的细节很多时候会被重绘的乱七八糟。右边是通过inpainting直接生成的图像,add之后可以很好的还原图像细节,并且光影与背景光源更好的柔和,但带来的问题是,商品本身会有些变色;粗糙的理解,这个值越小,画面中变化越明显的地方,越被保留,而画面中变化相对柔和的地方,就会被抛弃。原创 2024-09-09 20:43:08 · 311 阅读 · 0 评论 -
comfyui中的几种inpainting工作流对比
1.32G,通过它可以将所有的sdxl模型转成sdxl_inpaint模型,源于fooocus_inpaint_head,将9个通道压缩为4个通道的小型卷积网络,标准模型unet有4个通道,重绘模型有9个通道,inpaint_model_head和inpaint model应该是一种搭配,head负责通道压缩,model负责增强任意模型的重绘能力,可能训练方式是将原来的unet复制过来,把原来的unet冻结,只让复制的部分训练,这样就能让它最大化学习到重绘,最后在inference期间合并权重。原创 2024-09-09 19:22:13 · 251 阅读 · 0 评论 -
inpaint_v26.fooocus
1.32G,通过它可以将所有的sdxl模型转成sdxl_inpaint模型,源于fooocus_inpaint_head,将9个通道压缩为4个通道的小型卷积网络,标准模型unet有4个通道,重绘模型有9个通道,inpaint_model_head和inpaint model应该是一种搭配,head负责通道压缩,model负责增强任意模型的重绘能力,可能训练方式是将原来的unet复制过来,把原来的unet冻结,只让复制的部分训练,这样就能让它最大化学习到重绘,最后在inference期间合并权重。原创 2024-09-09 14:35:41 · 68 阅读 · 0 评论 -
[SaaS] 阿里妈妈-万相营造
有controlnet的介入,我们是默认controlnet会介入,在inapinting时会把带有商品的画布做一点扩充,然后走inapinting和controlnet,其实也做了一点outpainting的工作。基于阿里妈妈营销平台,提供从图文到视频再到落地页的素材级智能化创意支持,是您营销创意数字资产累积和升值的阵地,最大化提升营销的效率和效果。目前看来抠图基本都是sam了,现在weshop也是,都有一个预扣好的主体,但是一点进去也会重新sam。atomovideo->图生视频。原创 2024-09-06 19:37:13 · 57 阅读 · 0 评论 -
Brushnet的测试结果
本文介绍了一种名为Brushnet的图像修复模型,该模型通过分离的双分支扩散来提升图像修复的连贯性。不同于传统的文本引导修复方法,Brushnet通过额外的分支专注于mask图像特征的提取,减少了文本对修复过程的影响。1.模型相当吃提示词,提示词不好,效果很差,在多个方面都验证过,如果提示词合理,出图就不错,提示词太重要了。4.整体测下来,效果一般,不如原生的webui的inapinting。用comfyui测的,插件comfyui-Brushnet.原创 2024-09-02 13:58:52 · 118 阅读 · 0 评论 -
DynamiCrafter:Animating open-domain images with video diffusion priors
文本嵌入通过clip构建,图像通过clip编码,主要代表语义层面的视觉内容,未能捕获图像的完整信息,为了提取更完整的信息,使用来自clip图像vit最后一层的全视觉标记,该token在条件图像生成时表现出了高保真度,为了促进与文本嵌入的对齐,即为了获得可以被去噪unet解释的上下文表征,利用一个轻量级网络P将视觉token转换为上下文表征,采用了多模态融合的Q-former架构。unet中间层与物体形状或姿态关联性更大,两端层和外观关联更大,希望图像特征将主要影响视频的外观,同时对形状施加较小的影响。原创 2024-08-30 15:03:25 · 513 阅读 · 0 评论 -
MasaCtrl:Tuning-free mutual self-attention control for consistent image synthesis and editing
在所有去噪步骤的所有层上执行mutual self-attention,将会导致图像I和Is相同,原因是在早期步骤中可能会干扰目标图像的布局形成,在早期步骤中,目标图像的布局尚未形成,进一步观察到unet的浅层中的query特征(encoder部分)无法获得与修改后prompt相对应的清晰布局和结构。这些控制无法进行姿态变化,因为它们保持语义布局和结构,受到在多个批次之间执行self-attention可以生成相似图像的启发,在Tune-a-video中也有,在T2I中调整self-attention。原创 2024-08-28 17:07:23 · 823 阅读 · 0 评论 -
Prompt-to-prompt image editing with cross attention control
prompt2prompt通过在预训练的扩散模型中进行图像编辑,包括局部编辑(替换一个词),全局编辑(添加一个描述),真知可以精细的控制单词在图像的反应程度。Prompt-to-Prompt:基于 cross-attention 控制的图像编辑技术Prompt-to-prompt image editing with cross attention control_prompt-to-prompt image editing with cross-attention control。原创 2024-08-22 10:19:29 · 290 阅读 · 0 评论 -
AnimateDiff motion lora and image2video
运动定制:在推理阶段,将训练好的时序lora注入到预训练的视频扩散模型中,能从训练数据中学习到多样化运动的视频,如果训练数据是单个视频,学习到的运动将是特定运动,例如对象先向前运动,然后再左转,如果是一组视频,学习到的运动将是由他们提供的运动概念,比如举重或者高尔夫球。comfyui-animatediff中包括了基础的几个workflow,animatediff是文生视频的,不包括图生视频的链路,有controlnet链路来做可控。本篇文章的内容主要翻译自 AnimateDiff 的github项目。原创 2024-08-21 19:24:57 · 61 阅读 · 0 评论 -
AnimateDiff comfyui/webui
运动定制:在推理阶段,将训练好的时序lora注入到预训练的视频扩散模型中,能从训练数据中学习到多样化运动的视频,如果训练数据是单个视频,学习到的运动将是特定运动,例如对象先向前运动,然后再左转,如果是一组视频,学习到的运动将是由他们提供的运动概念,比如举重或者高尔夫球。comfyui-animatediff中包括了基础的几个workflow,animatediff是文生视频的,不包括图生视频的链路,有controlnet链路来做可控。本篇文章的内容主要翻译自 AnimateDiff 的github项目。原创 2024-08-21 14:12:29 · 234 阅读 · 0 评论 -
controlnet inpainting
2.专用修复模型,通过扩展基础扩散模型的输入通道维度,以整合提供的masked图像和mask,对专门设计的图像修复模型进行微调。阿里妈妈的几个开源出来的应用中,基于controlnet-inpaint训练了sdxl和sd3两个版本的,其中EcomXL-controlnet-inpaint,第一阶段,该模型在12M laion2B和内部图像上训练,使用随机掩码,每步20k,第二阶段,该模型在3M电子商务图像上进行训练,使用instance mask,每步20k。原创 2024-08-19 11:27:08 · 345 阅读 · 0 评论 -
stable diffusion inpainting(img2img+inpaint/inpaint-model)
2.假设denoise为0.8,总步数为20步,会对输入图片进行0.8x20步的加噪声,剩下4步不加,可理解为80%的特征,保留20%的特征,不过即便加完20步噪声,原始输入图片的信息也会有所保留。b.一个是基于上个时间步降噪后得到的img,一个是基于原图得到的img_orig,通过mask将两者融合,img=img_orig*mask+(1-mask)*img,对传入unet前的隐含层特征,我们利用mask将不重建的地方都替换成原图加噪后的隐含层特征。原创 2024-08-17 18:08:06 · 261 阅读 · 2 评论 -
FastAPI包算法服务
有三个提供的接口,分别是数据拉去的接口,算法处理完,进行图片上传,上传之后告诉调用方,数据已处理完成。常规包算法服务,就是比较简单,直接起一个fastapi就可以了。原创 2024-07-15 17:44:12 · 394 阅读 · 0 评论 -
视觉/AIGC->扩散生成
新的生成过程不再依赖显式的classifier,训练时,classifier-free guidance需要训练两个模型,一个是无条件生成模型(DDPM),一个是条件生成模型,这两个模型可以用一个模型表示,训练时只需要在无条件生成时将条件向量置为零即可。lora 本身假设模型是过参数化的,有更小的一个内在维度,模型在训练过程中的改变是低秩的,lora就是去学习这个改变量,lora的生成和泛化能力依然来源于原始的模型。DDIM非马尔科夫变体,去噪的步骤可以更少,有一个噪声表,通过更少的步骤获得更好的效果。原创 2024-07-15 11:53:45 · 198 阅读 · 0 评论 -
视觉,多模态,AIGC经验贴
7. SAM的prompt有哪些,可以怎么运用 8. recall和precision的区别(强调不要背公式,讲自己的理解) 9. 代码环节:手搓multi-head attn 10. 聊了一个项目的详细情况 百度: 1.围绕项目涉及到的技术进行提问 1. SD的结构(VAE,DDPM,U-Net,Text Encoder几个模块) 2. DDPM和DDIM有什么区别 3. 为什么DDIM解决了DDPM的不足,他两谁是子集谁是母集 4. L1和L2有什么区别,各自的优缺点?腾讯算法岗面试,问的贼细!原创 2024-07-15 11:53:08 · 1067 阅读 · 0 评论 -
text prompt如何超过77个词
sd中,token最多75(77个,包括起始和结束符),将其扩展到225,clip接受的最大长度是75个token,因此在225的情况下,需要将其分成三段,调用clip,然后连接结果。clip将文本转换为特征,sd中使用clip最后一层输出,但可以更改为使用倒数第二层的输出,NovelAI称这将更准确的反应提示,在sd2.0中,默认使用倒数第二层,不要指定clip_skip。【深度学习】sdwebui的token_counter,update_token_counter,如何超出77个token的限制?原创 2024-07-11 10:13:21 · 663 阅读 · 0 评论 -
控ID生成->facechain
首先,为了更针对性提取人脸的ID信息并保持部分关键人脸细节,并且更好适应Stable Diffusion的结构,FaceChain FACT采用在大量人脸数据上预训练的基于Transformer架构的人脸特征提取器,抽取其倒数第二层的全部token,后续连接简单的注意力查询模型进行特征投影,从而使得提取的ID特征兼顾上述三点要求。”,对应的训练数据为多张该人物ID的形象图片。该模式的效果与训练数据的规模成正相关,因此往往需要庞大的形象数据支撑以及一定的训练时间,这也增加了用户的使用成本。原创 2024-07-10 10:11:21 · 523 阅读 · 0 评论 -
HunyuanDiT训练
V100上不支持flash attention,但是可以在入参中取消use_flash_attn。原创 2024-07-03 09:35:52 · 72 阅读 · 0 评论 -
AIGC->基于扩散模型的图像生成算法 (课程大纲)
课程特色是围绕着工作中AIGC文生图的具体用途来对文生图领域进行一个高屋建瓴式的分析,结合具体的应用,尤其是产业界的具体实用场景,中文化的场景来教学,该课程希望对入门AIGC尤其是文生图领域的学生,算法工程师,产品经理有很强的指导意义。Stable diffusion/comfyui/fooocus基本都是k-diffusion。Lora-scripts、sd-scripts和diffusers之间的关系。stable-diffusion-webui中的sd核心代码解析。介绍一下中文化的一些模型和应用。原创 2024-06-25 10:20:44 · 299 阅读 · 0 评论 -
stable diffusion 模型和lora融合
接下来学习的插件名字叫做 SuperMerger,它的作用正如其名,可以融合大模型或者 LoRA,一般来说会结合之前的插件 LoRA Block Weight 使用,在调整完成 LoRA 模型的权重后使用改插件进行重新打包。实际上,目前市面上存在大量的 Checkpoint 模型都是经由合并这种方式得来,这类模型一般名字中都带有 Mix,如国内比较知名的作者GhostInShell: https://www.zhihu.com/peo。NONE是指原图,ALL是指LORA全开权重为1的图。原创 2024-06-21 16:29:56 · 928 阅读 · 2 评论 -
stable diffusion 模型融合
use MBW:分层对模型融合,Merge Block Weighted,已经集成在superMerger中了,注意alpha和beta是两个模型加权的两个参数,Weights Setting和Weights Presets,后者里面有详细的参数,可以修改,Weights Setting->Werights for alpha->Preset中有很多模式,这些模式都是可选的。下面是官方的融合预设。模型合并:对多个模型进行加权混合,从而得到一个合并后的模型,简单的说,就是每个模型乘一个系数,然后混合在一起。原创 2024-06-21 15:47:12 · 322 阅读 · 0 评论 -
小红书图文排版图片生成
在小红书上一些图片类型做个简单分析。5.DPA种类的图文。原创 2024-05-28 10:58:27 · 193 阅读 · 0 评论 -
电商场景的视频动效
通过基于扩散模型的视频生成技术,结合可控生成技术,使静态电商图片能够栩栩如生地“动”起来,实现了在电商领域的视频 AIGC 应用落地。eSheep.com 是国内知名的AIGC在线画图网站,提供海量模型,并支持在线AI画图。eSheep让AIGC更轻松,让更多人在AIGC中找到快乐。eSheep.com 是国内知名的AIGC在线画图网站,提供海量模型,并支持在线AI画图。eSheep.com 是国内知名的AIGC在线画图网站,提供海量模型,并支持在线AI画图。原创 2024-05-27 19:29:53 · 118 阅读 · 0 评论 -
comfyui电商场景工作流总结
eSheep.com 是国内知名的AIGC在线画图网站,提供海量模型,并支持在线AI画图。eSheep让AIGC更轻松,让更多人在AIGC中找到快乐。eSheep.com 是国内知名的AIGC在线画图网站,提供海量模型,并支持在线AI画图。eSheep.com 是国内知名的AIGC在线画图网站,提供海量模型,并支持在线AI画图。eSheep.com 是国内知名的AIGC在线画图网站,提供海量模型,并支持在线AI画图。eSheep.com 是国内知名的AIGC在线画图网站,提供海量模型,并支持在线AI画图。原创 2024-05-27 19:29:50 · 217 阅读 · 0 评论 -
stable diffusion webui prompt generator and translator
主要关注一些stable diffusion中的prompt的翻译器,prompt有很多优化的算法,本身prompt优化也是比较好的方向,这块主要有类似beautifulprompt之类算法,包括fooocus中内置了一个基于GPT2的语言模型来提供更好的prompt,这类的插件在git上有很多,对于目前的很多线上的图片生成的服务,这块的插件必不可少。,目前这个权重大概在2g多,效果也最好,如果是离线的翻译模型,建议第三种,当然也可以用大模型来做翻译,大模型做翻译效果也是极好的。原创 2024-05-23 16:49:36 · 321 阅读 · 0 评论 -
产品图->电商场景图制作的四种方式
3的话是很好的方式,基本都是基于comfyui的api去调用的,comfyui有aihttp封的一套框架,是排队的,不利于并发环境,开源的代码通病就是不太好维护,一些版本的迭代和更新之后,就比较乱了,并且用comfyui的接口的话,还需要一个对外的接口,用来调api,由于需要去comfyui内的文件夹取图(直接用api取会有失败的风险),需要将两个api都放在同一个带comfyui的机器中,若需要运行多个comfyui工作流,还需要保证这个机器有足够的空间开启多个comfyui接口。原创 2024-05-20 14:20:07 · 190 阅读 · 0 评论 -
建筑类sd/sdxl大模型及生成方式
LiblibAI·哩布哩布AI - 中国领先的AI创作平台原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。欢迎每一位创作者加入,分享你的作品。与中国原创模型作者交流,共同探索AI绘画。https://www.liblib.art/建筑设计AIGC模型:StableDiffusion建筑类模型https://www.yuanjineng.cn/models.php设计小教室https://www.designdid.top/courses/2x1x1x34x52xallhttps:/原创 2024-05-20 11:49:58 · 186 阅读 · 0 评论 -
controlnet的preprocessor类型
Tile 分块绘制的处理方法,原理就是将超大尺寸的图像切割为显卡可以支持的小尺寸图片进行挨个绘制,再将其拼接成完整的大图,虽然绘图时间被拉长,但极大的提升了显卡性能的上限,真正意义上实现了小内存显卡绘制高清大图的操作。canny提取后的线稿类似电脑绘制的硬直线,粗细都是1px大小,而Lineart则是有明显的笔触痕迹线稿,更像是现实的手绘稿。这里面会有一些和softedge重合的算法,其实算法本身都是一样,但是在不同的预处理器中会有一些后处理是不同的,导致最终的预处理图也是又不一样的地方。原创 2024-05-08 16:09:49 · 143 阅读 · 0 评论 -
[SaaS]建筑领域的sd应用
想用超火的AI绘图工具-Midjourney但发现需要科学上网?那换成Stable Diffusion,这总不用付费了吧但电脑配置不够,直接死机.....阻挡了一键出图的梦想(心态崩了....) 那么今天,学长这就带着这款独立…建筑学长官网,为青年设计师建立的线上资源共享及AI绘图创作渲染平台,免费提供海量设计案例、CAD图纸、SU模型、PS素材、软件插件下载,提供丰富的设计软件教学与灵感参考素材图库。基本都是开源算法,但是找对了领域,建筑AI确实是个刚需。建筑Ai绘图在线网站终于来了!原创 2024-05-06 18:02:57 · 102 阅读 · 0 评论 -
ImageReward:learning and evaluating human preferences for text-to-image generation
随机选择t而不是使用最后一步的原因是,如果只保留最后一个去噪步骤的梯度,训练被证明是非常不稳定的,结果是不好的。提示选择和图像收集,该数据集利用了来自diffusiondb的多样化真实用户提示的选择,产生了10000个候选提示,每个提示都带有4-9个从diffusiondb中抽样的图像,从而产生了177304个用于标记的候选对。语言模型的RLHF不能直接应用在diffusion中,现有的LDM人类反馈微调方法都是间接的,可以分为两类,1是使用reward模型获取新的数据;(例如封面图中的e和f)原创 2024-04-25 11:24:14 · 451 阅读 · 0 评论 -
stable diffusion QA
任务的话,如果记输入的干净图像是 x0,经过t步加噪之后的带噪图像为 xt,mask为 m,通常会有一步 x^t=xt⊙m+x0⊙(1−m)的compse操作,同时U-Net的输入通常会有一个额外的channel用于mask的concat,然后再将 x^t和 m的concatenation送入U-Net预测噪声,这样U-Net学习到的分布就是mask区域内部的,同时模型也能够接受。Q:如果是图像修复任务,本身输入含有mask的图像,如果带着mask的图像进行加噪,去噪,那去噪后的图像岂不是还带着mask?原创 2024-04-24 14:50:23 · 911 阅读 · 0 评论 -
PixArt-σ:Weak-to-strong training of diffusion transformer for 4k text-to-image generation
PixArt-Σ在其前…PixArt-σ提出了一种更为激进的压缩策略KV compression,其提出的动机在于计算attention中,key和value存在一定的特征冗余,换言之,如果用压缩后的key和value进行计算,并不会对PixArt-σ生成的结果带来太大的性能损失。值得注意的是,一旦分辨率发生变化,原有的positional encoding(PE)也无法继续适用,这里PixArt-Σ用到了DiffFit中的一个PE Interpolation技巧,操作很简单,就是将原来的PE。原创 2024-04-11 17:10:48 · 998 阅读 · 0 评论 -
PixArt-β:Fast and controllable image generation with latent consistency models
controlnet是unet的设计范式,因此pixart提出了controlnet-transformer,将diffusion transformer copy一份作为条件信号的输入,controlnet-transformer中的zero conv则用zero linear layers代替。PixArt-β对现有的几个lcm-based方法进行了对比,可以看到,在1024x1024分辨率下的图片生成,用一张A100推理仅0.5s。对基础的pixart-α升级,使其支持LCM和Controlnet。原创 2024-04-11 16:59:22 · 439 阅读 · 0 评论 -
PixArt-α:Fast Training of diffusion transformer for photorealistic text-to-image synthesis
第二个变动是将原始的AdaLN改成了AdaLN-single,原始的DiT中,每个DiT block中均有一个单独的AdaLN,由于这里需要一个MLP来得到6个scale和shift,所以参数量还是很多(27%),而AdaLN-single是所有的DiT blocks都共享一个MLP,然后每个DiT block再加上一个可训练的embedding,这样即实现了每个DiT block参数有所区分,又减少了参数量。进过这两个变动,预训练模型就转变为一个文本引导的条件扩散模型,这个阶段用256x256训练。原创 2024-04-11 16:52:22 · 704 阅读 · 0 评论 -
open-sora
整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT模型,在训练阶段首先采用预训练好的VAE的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本embedding一起训练STDiT,在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声与提示词prompt embedding一起输入STDiT中,得到去噪之后的特征,最后输入到VAE的解码器中,解码得到视频。LLaVA-1.6-Yi-34B的多模态LLM来实现Video-Caption,生成高质量的视频文本对。原创 2024-04-11 14:28:26 · 950 阅读 · 0 评论