多模态和生成模型理论
文章平均质量分 87
主要以多模态大模型和生成式视觉大模型的理论和论文为主
Kun Li
自古山高水远路,无一不为风尘苦。
展开
-
stable diffusion的额外信息融入方式
conditioning怎么往sd中添加,一般有三种,一种是直接和latent拼一下,另外很多是在unet结构Spatialtransformers上加,和文本特征一样,通过cross-attention往unet上加,这里还需要注意一点,在文本嵌入时,q是可学习的,k和v都是文本embedding。通过解耦cross-attention的方式,clip提取图像特征,文本输入一个crossattention,图像输入一个cross-attention。原创 2024-03-06 15:22:42 · 325 阅读 · 0 评论 -
Style Aligned image generation via shared attention
可以应用于任何基于注意力的文本到图像扩散模型上,在扩散过程中通过从每个生成的图像到batch中的第一个图像进行最小的attention sharing operations,可以得到一组具有一致风格的图像,此外利用扩散反演,可以根据参考风格图像生成具有一致风格的图像,无需优化或微调。QKV分别为从集合Li的深层特征投影中得到的query,key和value,full attention sharing可能会影响生成图的质量,会导致图像之间的内容泄露,例如图5所示,图像集中的独角兽染上了恐龙身上的绿色颜料。原创 2023-12-30 16:09:09 · 504 阅读 · 1 评论 -
CLE Diffusion:Controllable light enhancement diffusion model
首先通过计算平均像素值来提取正常光图像的原始亮度级别lamda,使用一个随机正交矩阵将平均值编码成illumination embedding,照明embedding进一步嵌入到unet中,使用亮度控制模块,Film学习基于照明embedding的特征逐通道放射变换,然后,通过沿通道轴将特征分成两半,一个副本与特征相乘,一个副本与特征图相加。Angular color loss:增加亮度可以放大低光图像中的颜色失真,采用了一种颜色损失,鼓励增强图像y0的颜色和真实值y相匹配;全局和局部直方图均衡化;原创 2023-12-14 17:46:33 · 97 阅读 · 0 评论 -
MagicAnimate:Temporally consistent human image animation using diffusion model
MagicAnimate,使用Appearance encoder将参考图嵌入为Appearance embedding ya,然后将目标姿势序列,如DensePose,传入姿势控制网络Fp,提取运动条件yp,在这两个信号的基础上,训练视频扩散模型,将参考任务的身份根据给定的运动进行动画化,为了减轻一些片段之间的细微不连续性,采用一种简单的视频融合方法来提高过渡的平滑性,将整个视频分解为重叠的片段,并简单的对重叠帧的预测进行平均,引入了一种图像视频联合训练策略。TikTok和TED-talks数据集,原创 2023-12-14 15:00:13 · 191 阅读 · 0 评论 -
PowerPaint - A Task isworth one word:Learning with task prompts for highquality vesatile img inpaint
8个A100进行了25k迭代,bs为1024,lr为1e-5,OpenImage V6的语义分割自己作为多任务提示调整的主要数据集,根据Smartbrush,使用分割标签和blip生成局部文本描述,同时,将文本到图像生成任务视为inapinting,即mask掉所有内容,的特例,并使用LAION-Aesthetics v2 5+的图像和文本训练,在训练阶段,主任务和文本图像生成任务概率为80%和20%。图像上有的,一般像移除等,图像上没有的,向文本引导的重新生成。其中,1.文本引导的目标修复,看右边的图;原创 2023-12-14 11:08:16 · 713 阅读 · 0 评论 -
VideoComposer:Compositional video synthesis with motion controllability
3.时间条件,在temporal维度实现更精细的控制,引入了4个时间条件,a,motion vector,作为视频特定元素,运动向量被表示为二维向量,即水平和处置方向,编码了相邻两帧之间的像素级移动,如图3所示,从研所视频中提取标准的MPEG-4格式的运动向量;2.空间条件,a,单个图像,视频由连续的图像组成,单个图像通常会揭示该视频的内容和结构,给定视频的第一帧作为空间条件进行图像到视频的生成;用LDM的预训练来初始化,1.通过文本到视频生成预训练,专注于temporal建模;原创 2023-12-13 17:21:35 · 75 阅读 · 0 评论 -
AnimateAnything:Fine-grained open domain image animation with motion guidance
前一帧和后一帧中的灰度值差异,阈值Tm确定了可移动区域和不可移动区域中的运动强度,如果Tm设置的太高,非移动区域的物体可能出现运动,Tm设置的太低,不可移动的区域中的物体可能完全冻结,可能导致运动区域边界出现伪影,在d中识别这些差异区域的轮廓,并通过将标签1分配给这些轮廓内包含的像素,构建运动区域mask,表示可移动区域m。使用以下方法从真实视频中构建训练对,包括视频和相应的运动区域mask,首先,将给定的N帧视频样本转换为灰度图像,计算超过阈值Tm的帧差异,这些差异被合并为创建差异二值mask,原创 2023-12-13 16:37:06 · 135 阅读 · 0 评论 -
X-Adapter:Adding universal compatibility of plugins for upgraded diffusion model
当升级基础模型时,下游插件都需要重新训练,这很难维护。在训练过程中,潜变量来源于同一张图,但是VAE的潜变量空间不同(均值方差不同),在推理时如果对初始潜变量随机采样,如a所示,可能缺乏对齐,提出了一个两阶段的推理策略,如b所示,给定总步长T,第一阶段,随机采样一个初始潜变量Zt用于X-Adapter,并在时间步T0内与插件一起运行,在时间步T0,base模型的潜变量Zt0将转换为upgrade模型的潜变量\hatZt0,3.版本间的插件混合,保留了基础模型和升级模型的权重,允许使用两个模型的插件。原创 2023-12-13 11:14:26 · 108 阅读 · 0 评论 -
Make pixels dance:high-dynamic video generation
以<文本,第一帧,最后一帧>为指令,文本指令由预训练的文本编码器编码,与unet进行cross-attention,图像由预训练的VAE编码和扰动的视频潜变量或高斯噪声串联编码,作为输入传递给扩散模型,在训练中,使用真实的第一帧来强制模型严格遵循指令,保持连续性。将第一帧和最后一帧的图像和文本结合,在训练中,使用真实的视频帧作为指令,指定第一帧和最后一帧,使用VAE将其编码到扩散模型的输入空间中,采用[first,PAD,last],将image条件和加噪的潜变量沿通道维度连接,作为扩散模型的输入。原创 2023-12-12 19:33:08 · 124 阅读 · 0 评论 -
AnimateDiff:Animate your personalized text-to-image diffusion models with spectific tuning
运动建模模块的训练类似于latent diffusion model的训练,通过预训练的自编码器,将样本视频数据逐帧编码为潜在code,使用定义的前向扩散对潜在code进行噪声处理,使用包含了motion modeling module的扩散模型将进过噪声处理的潜在code和文本作为提示,并预测添加到潜在code中的噪声强度,同时使用L2损失进行加强,T2I模型的预训练权重被冻结。motion modeling module可以为所有的T2I模型提供动画效果,无需额外的数据收集或定制化训练工作。原创 2023-12-12 16:54:08 · 298 阅读 · 0 评论 -
Animate anyone:consistent and controllable image-to-video synthesis for character animation
所有的视频帧都会进行多次去噪,但是ReferenceNet只需要在整个过程中提取一次特征,参考网络,主要参考输入的图像。由于去噪unet需要进行微调,因此不引入额外的控制网络,使用了一个轻量级的位姿引导器,该位姿引导器利用四个卷积层(kernel:4x4,stride:2x2,16/32/64/128)将位姿图像与噪声潜变量对齐,分辨率与噪声潜变量相同,随后,在输入去噪unet之前,将处理过的位姿图像添加到噪声潜变量中,利用高斯权重进行初始化,并在最后的投影层中使用零卷积。原创 2023-12-12 15:46:37 · 420 阅读 · 0 评论 -
Monkey:Image resolution and text label are important things for large multi-model models
解决方案包括:1.使用更大输入分辨率的预训练视觉模块,llava1.5,2.通过curriculum学习增加训练过程的分辨率,QWen-VL,PaLi-3,PaLi-X。Vit-BigHuge的视觉编码器+QWen-VL的llm。直接指令精调,H和W为448,以适配Qwen-VL的编码器,视觉重采样器可学习query为256,主要训练尺寸为896x896,Lora的注意力模块的秩为16,MLP为32,包括一个7.7B的llm,重参数模块是90M,编码器1.9B,lora为117M,整体参数为9.8B。原创 2023-12-12 11:45:56 · 88 阅读 · 0 评论 -
cogvlm:visual expert for large lanuage models
2.在预训练阶段,cation中的先验信息只能被编码到浅层对齐方法中的视觉特征中,这削弱了视觉特征和文本之间的一致性。visual expert模块:在语言模型的每一层上都加了visual expert,以实现深层次的视觉语言对齐,由一个QKV矩阵和一个MLP组成,和语言模型中的QKV矩阵,MLP的形状相同,并从语言模型中初始化,语言模型中的每个attention head捕捉语义信息,可训练的visual expert可以将图像特征转换为与不同的attention head对齐,从而实现深度融合。原创 2023-12-11 19:41:34 · 190 阅读 · 0 评论 -
stable video diffusion:scaling latent video diffusion models to large datasets
同样基于base模型,可以微调图生视频模型。使用network preconditioning将图像模型中的固定离散噪声调度微调为连续噪声,对大小为256x384的图像进行微调,在插入temporal layer后,使用256x384的LVD-F对模型进行训练,使用bs为768在100k迭代中微调模型以生成14个320x576的帧。有了基础数据集后,需要关注美学指标,比如视频中静止太多,文本太多,因此使用基于深度光流对视频进行评估,使用了2帧的帧率,把平均光流幅度低于一定阈值的视频都过滤掉了。原创 2023-12-11 16:45:49 · 164 阅读 · 0 评论 -
文生图:AE/VAE/VQVAE/VQGAN/DALLE模型
有了上述VQ-VAE,可以实现图像压缩,重建,codeformer的超分修复等,但是无法生成新的图像,当然可以随机生成index,然后对应生成量化后的latnet code,进而使用decoder来生成图像,但是latent code完全没有全局信息甚至局部信息,因为每个位置都是随机生成的,引入了pixelcnn来自回归的生成全局信息的latent code,进而可以生成更真实的图像。在VAE的基础上引入了离散的、可量化的隐空间表示,有助于模型更好的理解数据中的离散结构和语义信息,同时避免过拟合。原创 2023-12-11 14:49:30 · 184 阅读 · 0 评论 -
sdxl-turbo:adversarial diffusion distillation
2.蒸馏,目前包括lcm_lora在内的方法,都是对扩散的去噪过程进行蒸馏,从之前的五十步,三十步道1-4步即可出图。注意文生图算法通常来说,包括两个维度,1.模型架构维度,vae encoder+diffusion+vae decoder,通常再包括一个clip encoder给text侧做embedding,2.扩散理论的加噪和去噪的训练和采样过程,模型架构可以一样,但是在加噪和去噪上同样可以有多种方法的改进,比如采样器,cm,lcm,lcm-lora以及sdxl-turbo这种。原创 2023-12-11 14:06:59 · 215 阅读 · 0 评论 -
Playground v2:a new leap in creativity
Playground团队刚刚发布了新的文生图模型Playground v2,它是基于SDXL的架构从零训练的模型,但是根据用户评价,它在生成效果上比SDXL强2.5倍。Playgroundv2和sdxl的架构和模型参数都是相同,都是采用两个text encoder,openclip-vit/G和clip-vit/L,可以直接在webui,comfy以及diffusers中加载使用。在包含了2600+个用户的prompts上的人工测评,相比sdxl,playgrpundv2好2.5倍。原创 2023-12-11 11:35:59 · 107 阅读 · 0 评论 -
Kandinsky-3:text-to-image diffusion model
下面来详细分析下和dalle2的对比,注意到dalle2是先利用clip生成了text和image的embedding,第一个prior可以是扩散模型,也可以是自回归的transformer,利用text embedding生成image embedding,gt是clip编码的image embedding,第二阶段是一个decoder,从image embedding生成图像,是一个扩散模型。kandinsky(瓦西里-康定斯基)是俄罗斯一个著名画家,公认的现在抽象绘画的开拓者。原创 2023-12-11 11:11:16 · 365 阅读 · 0 评论 -
[PPT] ChatGLM: An Alternative to ChatGPT
原创 2023-12-10 17:18:46 · 49 阅读 · 0 评论 -
LCM-LoRA:a universal stable-diffusion acceleration module
LCM需要微调整个sd模型,consistency model本身可以和sd的网络结构完全一致,但是diffusion model作为ODE,其Solver可以有多种,可以采用硬解法的Solver,比如DPM++等,consistency model解ODE实际上通过的是函数f,f是通过蒸馏得到的,LCM就是在sd基础上利用consistency model蒸馏的,在VAE的潜空间中。既然lcm是对sd的一个微调过程,只是换了一个loss,那就可以使用lora,只用lcm的蒸馏损失优化lora的权重。原创 2023-12-07 13:51:50 · 332 阅读 · 0 评论 -
latent consistency models: synthesizing high-resolution images with few-step inference
1.采样当前一次训练所需要的数据:从数据集中采样的样本变为了(z,c),即图片latent和图片的caption,sd加噪过程共有N=1000步,从1到N-k中采样当前训练所针对的timestep n,即当前一个sample(z,c)选择了Zn+k、\hatZn这两个点去计算consistency约束loss,最后从[Wmin,Wmax]中选择一个w作为后续预测\hatZn时使用的guidance scale。然而,扩散模型存在一个明显的缺点:迭代反向采样过程导致生成速度缓慢,限制了其实时应用的可能性。原创 2023-12-07 11:37:20 · 153 阅读 · 0 评论 -
consistency model
注意上图,从data到noise是加噪过程是PFODE,逆向SDE可以等价成ODE形式,在去噪的每个节点上都可以进过函数f映射回样本data,即每个点都可以是加噪轨迹的起点,因为每个点都可以通过f映射回样本(在去噪时能和样本关联上),这个就是consistency约束。将扩散模型的前向扩散过程建模为连续的随机微分方程,这个前向的SDE存在一个反向的形式,这个反向的SDE为去噪过程提供了数值解,所以可以根据反向SDE的数值解一步一步去噪。但是,扩散模型存在的问题也是很明显的,那就是采样速度慢。原创 2023-12-06 20:08:54 · 300 阅读 · 0 评论 -
Fuyu-8B: a multimodel architecture for ai agents
看看cogview1、cogview2:原创 2023-12-05 16:37:26 · 99 阅读 · 0 评论 -
classifier-free-guidance 扩散模型引导生成
新的生成过程不再依赖显式的classifier,训练时,classifier-free guidance需要训练两个模型,一个是无条件生成模型(DDPM),一个是条件生成模型,这两个模型可以用一个模型表示,训练时只需要在无条件生成时将条件向量置为零即可。classifier-free guidance一方面大大减轻了条件生成的训练代价,无需训练额外的分类器,只需要在训练时进行随机drop out condition来同时训练两个目标,另一方面,这样的条件生成并不是以一个类似于对抗攻击的方式进行。原创 2023-11-24 15:11:56 · 553 阅读 · 0 评论 -
clip4clip:an empirical study of clip for end to end video clip retrieval
从视频中提取帧,采用了CLIP的12层和32patch size的ViT-B/32的图像编码器作为视频编码器,使用Flattened Patches线性投影模块中研究了两种线性投影,分别为2D投影和3D投影,1.ViT flattened patches的线性投影叫2D投影,独立的嵌入每个2D帧块,忽略了帧与帧之间的时序关系,2.3D线性投影,将块嵌入到时间维度上,具体而言,3D线性使用了一个3D卷积核[txhxw]作为线性投影,而不是2D投影中的[hxw]卷积核,其中t,h,w分别是时间,高度和宽度。原创 2023-11-16 17:10:37 · 146 阅读 · 0 评论 -
文生图算法评价
文章浏览阅读51次。包括了79.8w个图像对的人工比较注释,在数据集收集过程中,关注潜在的偏差问题,1.偏差来源于图像源,hpdv2包含了9个最新的文本到图像生成模型生成的图像,以及coco captions数据中的真实图像,2.文本提示偏差,用户编写的提示,例如diffusiondb中的提示,通常遵循描述加上几个样式词的组织方式,其中样式词经常包含矛盾之处,让标注着难以理解,使用chatgpt去除样式词并将提示组织成一个明确的句子。我们雇佣了57个人来标注数据,其中50人负责图像排序,7负责质量控制。原创 2023-11-15 14:40:46 · 315 阅读 · 0 评论 -
BeautifulPrompt:Towards automatic prompt engineering for text-to-image synthesis
作者:曹庭锋、汪诚愚、吴梓恒、黄俊背景Stable Diffusion(SD)是一种流行的AI生成内容(AI Generated Content,AIGC)模型,能在文字输入的基础上生成各种风格多样的图像。sd目前的生成非常依赖用户的prompt,这算是一个方向,也有不少的工作,beautifulprompt我在modelscope上实测了一下,效果还是很一般。1.3 图像标题生成,搜集了高质量的图文对,对图像进行image captioning,生成更多可供训练的prompt。原创 2023-11-14 17:40:47 · 124 阅读 · 0 评论 -
dalle3:Improving image generation with better captions
文生图算法的文本理解能力,对于稍微复杂的文本,生成的图像往往会容易忽略部分文本描述,甚至无法生成文本所描述的图像,主要是训练数据集的caption不够准确,1.图像常规的文本描述过于简单(coco),大部分只描述图像中的主体而忽略图像中的其它信息,比如背景,物体的位置和数量,图像中的文字等,2.目前训练的图像文本对(laion)都是从网页上爬取的,文本的描述是alt-text(图片替代文本),这种描述很多是不太相关的内容,比如广告。3.合成的caption中会幻想图像中的重要细节,可能画出错误类型的植物。原创 2023-11-14 16:38:54 · 459 阅读 · 0 评论 -
Scalable diffusion models with transformers
首先是一个patch embedding来将输入进行patch化,得到一系列的tokens,其中patch size属于一个超参数,直接决定了tokens的数量,影响模型的计算量。由于对输入进行了token化,所以在网络的最后还需要一个decoder来恢复输入的原始维度,DiT采用一个简单的linear层来实现,直接将每个token映射为pxpx2C的tensor,然后再进行reshape来得到和原始输入空间维度一样的输出,但是特征维度大小是原来的2倍,分别用来预测噪音和方差。原创 2023-11-07 17:36:46 · 1678 阅读 · 3 评论 -
chinese-stable-diffusion中文场景文生图prompt测评集合
DALL-E 3 是 OpenAI 的又一大作,相比于此前的 DALL-E 3 是一个重磅提升。借助于 Transformer 模型优秀的自然语言能力,它可以精准地理解你的设计需求,并近乎如实地反映在画面上。GitHub - leeguandong/Awesome-Chinese-Stable-Diffusion: 中文文生图stable diffsion模型集合。腾讯混元的文生图在人像真实感、场景真实感上有比较明显的优势,同时,在中国风景、动漫游戏等场景等生成上有较好的表现。原创 2023-11-05 15:18:24 · 1269 阅读 · 0 评论 -
中文sd:SkyPaint-AI-Diffusion
将OpenAI-CLIP的text_encoder作为教师模型并且冻结参数,学生模型采用和教师模型同样大小的多语言BERT模型,训练时英文输入通过教师模型获取相应的t_en_hiddent_state,英文和中文分别通过学生模型获取相应s_en_hiddent_state,s_zh_hidden_state,采用l1、l2、cos距离等构造损失函数使得学生模型的中英文hiddent_state逐渐靠近教师模型的hiddent_state。目前模型还在持续优化中,后续会有更稳定的模型更新。原创 2023-11-05 14:16:43 · 162 阅读 · 0 评论 -
stable-diffusion 电商领域prompt测评集合
我是玩AI设计的守意🤖,我的兴趣就是帮0基础的电商设计师(美工小白)快速出稿,不被老板鸭炸,翻身拒当工具人!掰掰┏(^0^)┛,下篇AI教程见🌚~~ #midjourney #电商 #美工 #stablediffusion #AI教程 #产品渲染 #AI。#AI #stablediffusion #midjourney #电商 #教程 #AI绘画有点东西 #Ai绘画 #StableDiffusion教程 #3d渲染。原创AI模型分享社区,这里有最新、最热门的模型素材,10万+模型免费下载。原创 2023-11-02 16:58:24 · 1351 阅读 · 0 评论 -
minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning
线性投影层:目标是将所有来自冻结的视觉backbone的视觉token投影到语言模型空间中,对于448x448这样的高分辨率图像,投影所有图像token会导致一个非常长的序列输入(1024个token),因此,简单的将embedding空间中4个相邻的数据token连接起来,并将他们一起投影到用一个特征空间的一个单一的embedding中,从而将视觉token的数量减少4倍。第一阶段:在一组弱标注和精细数据集上训练,8XA100,训练400000步,bs=96,le-4,90h。原创 2023-10-27 15:48:13 · 160 阅读 · 0 评论 -
blip2:Bootstrapping lanuage-image pre-training with frozen image encoders and large lanuage models
leared-queries是一个参数矩阵,本文中是32x768,即32个token,每个token的维度是768,远小于冻结图像特征的大小,例如ViT-L/14为257x1024,该参数作为transformer的Q,image encoder输出的图像特征一般也是768维度,token数量是N,输出N*768,作为transformer的K,V,有了QKV之后,三者就可以做cross-attention,从而完成图像特征的提取,可以将learned-queries理解为提取与文本最相关的视觉信息。原创 2023-10-27 14:48:12 · 87 阅读 · 0 评论 -
LLaVA:visual instruction tuning
主要目标是有效利用预训练的llm和视觉模型的能力,llama作为llm,预训练的clip视觉编码器ViT-L/14,提供Zv,用一个简单的线性层来将图像特征连接到单词embedding空间,用一个可训练的投影矩阵w将Zv转换为语言embedding标记Hq,其维度与语言模型中的单词embedding空间相同。对应于LLaVA的两个训练阶段,LLaVA的训练数据也分为两部分:预训练阶段的数据和微调阶段的数据。llava当时的GPT4还不支持图像输入,因此这样的测评也不完全能够展示GPT4的能力。原创 2023-10-27 10:35:08 · 996 阅读 · 0 评论 -
Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond
大语言模型:QWen-7B;在这个阶段,冻结了大语言模型,只优化视觉编码器和VL adapter,输入图像被调整为224x224,训练目标是最小化文本token的交叉熵,adamw,余弦学习率,最大lr=2e-4,最小lr=1e-6,训练过程中,图像-文本对的bs=30720,第一阶段预训练总共50000步,大约消耗了15亿图像-文本对样本和5000亿个图像-文本token。预训练使用了一个大规模的,弱标注,通过网络爬取的图像-文本对数据集,清洗之后保留14亿数据,其中77.3%为英文,22.7%为中文。原创 2023-10-10 15:42:18 · 429 阅读 · 0 评论 -
IP-Adapter:text compatible image prompt adapter for text-to-image diffusion models
Imagen采用T5。上述方法的主要问题在于文本到图像扩散模型的cross-attention,query是可学习的,文本信息是key和value,预训练扩散模型中的cross-attention的key和value的投影权重是经过训练的,以适应文本特征,因此,将图像特征和文本特征合并到cross-attention只能实现图像特征和文本特征的对齐,但有可能错过一些图像特定的信息,最终导致只基于参考图像的粗粒度可控生成。例如,流行的sd模型是基于从冻结的clip文本编码器中提取的文本特征进行条件限定的。原创 2023-10-10 11:19:35 · 605 阅读 · 0 评论 -
Human preference score v2: a solid benchmark for evaluating human preferences of text-to-image synth
包括了79.8w个图像对的人工比较注释,在数据集收集过程中,关注潜在的偏差问题,1.偏差来源于图像源,hpdv2包含了9个最新的文本到图像生成模型生成的图像,以及coco captions数据中的真实图像,2.文本提示偏差,用户编写的提示,例如diffusiondb中的提示,通常遵循描述加上几个样式词的组织方式,其中样式词经常包含矛盾之处,让标注着难以理解,使用chatgpt去除样式词并将提示组织成一个明确的句子。我们雇佣了57个人来标注数据,其中50人负责图像排序,7负责质量控制。hpsv2指标更高。原创 2023-10-09 11:44:05 · 175 阅读 · 0 评论 -
Human preference score:better aligning text-to-image models with human preference
提出了通过明确区分首选和非首选图像来适应生成模型,构建了另一个数据集,其中包括提示及其新生成的图像,并根据之前训练的人类偏好分类器将其分类为首选或非首选,对于非首选图像,我们通过在相应的提示前添加特殊前缀来修改它,通过lora来训练,增加了模型学习非首选图像概念的能力,其实就是dreambooth的做法,只不过这里多给了模型一个首选和非首选的图像概念,而数据集可以通过hps分类器构造。在sd的discord收集了一个关于生成图像的人类偏好数据集,用此数据集训练了一个人类偏好的评分,hps。原创 2023-10-09 10:10:13 · 247 阅读 · 0 评论 -
stable diffusion模型评价框架
作者的思路我认为也是没问题,和我看法基本一致,生成式的sd不需要那么多定向的模型,提供强泛化能力的基础模型只需要几个就可以,而外挂的能力多可以通过lora、controlnet这样的工具去完成,因此评估主sd模型确实需要有一套体系,常规的一些指标确实很难衡量模型的生成能力,目前最主要的图像生成的指标还是FID/IS/Clip score,但是这些评价指标很多时候也无法充分反应图像的生成质量。1.模型的兼容性(画风,Lora,prompts等),2.生成图片的画面质量,3.模型的良图率。原创 2023-09-24 17:42:57 · 923 阅读 · 0 评论