自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

liguandong

github:https://github.com/leeguandong

  • 博客(666)
  • 资源 (2)
  • 收藏
  • 关注

原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!

learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。

2023-12-03 15:08:05 184

原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!

3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1197

原创 Semantic human matting

将3通道图像与来自TNet的3通道图串联作为6通道输入,DIM使用3通道图和1通道trimap(1,0.5,0表示前景,未知区域和背景)作为4通道输入,6通道输入和4通道输入几乎有相同的性能,MNet有13个卷积层和4个最大池化层,编码器网络和VGG16相同,VGG16的conv1是3个输入通道,MNet有6个输入通道,每个卷积层后面添加了批归一化,移除了conv6和deconv6.TNet预训练,膨胀alpha生成trimap,400x400;扮演着语义分割的角色,输出3通道图,PSPNet50.

2024-03-01 14:27:55 133

原创 Mask Guided Matting via Progressive Refinement network

网络以图像和粗略mask作为输入,并输出抠图 ,在解码过程中,RPN在每个特征级别产生一个边缘抠图输出,在不同尺度上已经证明边缘输出对于改善特征学习是有效的,线性融合边缘输出对于抠图不理想,因为靠近物体边界的图像区域需要较低级别特征来勾勒前景,而识别物体内部区域需要更高级别的指导。0代表黑,1代表白,结合上面这张图分析,PRM的第一行,当前级别l,使用以下函数从前一个级别的抠图输入alphal-1生成gl,如何生成呢?输入可以是trimap,粗略二进制分割图,低质量alpha,

2024-02-29 15:58:05 180

原创 Highly accurate dichotomous image segmentation

在图像分割组件Fsg中,在生成概率图之前,图像I被转换为一组高维中间特征图,每个特征图与其对应的GT中间特征图具有相同的维度,接着,中间监督通过高维特征一致性损失,对中间特征进行监督。大多数模型在训练集上容易过度拟合,可以对给定的深度网络的中间输出进行监督,通过神经网络的最后一层特征图而产生的单通道概率图,然而将高维特征转换为单通道概率图本质上是一种降维操作,不可避免的丢失关键信息。使用GIMP对每张图进行像素级精度手动标记,平均每张图图像的标记时间约30分钟,有些图像的标记时间长达10h。

2024-02-28 14:40:56 304

原创 F,B,Alpha Matting

Resnet50,输入通道从3增加到9以适应trimap,使用三个不同尺度的前景和背景掩码的高斯模糊来编码trimap,与现有的matting方法不同,通常将trimap编码为具有值为1的单通道前景,值为0.5的未知值和值为0的背景。其次,移除了resnet50的layer3和layer4,并将膨胀率增加到2和4,可以在最高尺度上进行处理,而不降低分辨率。输出层包含7个通道,对应alpha,F,B,将alpha的值归一化0-1之间,sigmoid函数,F和B也采用sigmoid函数,以保持在0-1之间。

2024-02-26 14:35:40 232

原创 outpainting的几种实现方式

这是一个基于stable diffusion的扩展绘画工具(outpainting). Contribute to WatchTower-Liu/diffusion-outpainting development by creating an account on GitHub.大部分扩图还是第一种,init_img+init_mask,把原图的区域扩大,扩大后的区域可以用马赛克或者噪声图代替,制作只有原图的mask,尺寸和扩大的图片尺寸一直,再进行inpainting即可。

2024-02-04 17:53:03 972

原创 Revisiting image pyramid structure for high resolution salient object detection

SICA的整体操作遵循OCRNet的方法。拉普拉斯金字塔存储了每个尺度中低通滤波图像与原始图像之间的差异,可以将拉普拉斯图像解释为低通滤波信号的余项,即高频细节,我们重新设计我们的网络,通过构建拉普拉斯金字塔,集中于边界细节并从最小的阶段到其原始大小重新构建显著图,从最上层的阶段stage-3开始,将初始显著性图作为输入,并从拉普拉斯显著图中聚合高频细节。在多尺度编码器中使用了UACANet中的PAA-e来减少骨干特征图的通道数,并使用PAA-d在最小阶段(即stage3)上预测初始显著图。

2024-02-01 19:09:34 516

原创 U2net:Going deeper with nested u-structure for salient object detection

图2中d用了inception结构,通过扩张卷积来扩大感受野,受unet启发,RSU用于捕捉阶内多尺度特征,RSU和残差连结最大的不同在于,RSU使用了一个类似于UNET的结构来替换单一流的普通卷积,并用一个权重层转换的局部特征来代替原始特征。U2net是一种为SOD设计的两级嵌套U结构,不使用图像分类的预训练骨干网络,在底层设计了一种新颖的Residual U-blocks,能够提取多尺度特征而不降低特征图分辨率,在顶层,有一个类似UNET的结构,每个极端都由RSU填充。交叉熵监督sup0-6,

2024-01-31 15:57:29 367

原创 Boosting semantic human matting with coarse annotations

tensorflow,按顺序对三个网络进行训练,在输入到MPN之前,对所有的图进行降采样处理,192x160,在每个训练上随机翻转,在MPN上训练20个epoch,将低分辨率图像和输出的前景mask连接起来作为输入来训练QUN,在训练QUN时,对精细化注释数据执行随机滤波(滤波器大小为3或5),二值化和形态学操作(腐蚀膨胀)以生成配对的高质量和低质量mask数据。第一阶段预测的是粗糙的mask,所有的训练数据调整为192x160,使用所有数据进行训练,包括低质量和高质量的注释数据。

2024-01-30 17:36:25 863

原创 BASNet:Boundary-aware salient object detection

这篇论文提出了一个预测-优化的框架,BASNet,以及一个新的针对边界感知显著目标检测的混合损失。1.为了捕获全局和局部的信息,提出了一个新的预测-优化网络,将unet的深度监督的encoder-decoder网络和一个新的残差模块结合,encoder-decoder将输入图像转换为一个概率图,而优化模块则通过学习粗糙的特征图和gt之间的残差来优化预测的输出.将全卷积应用到显著性检测,显著性检测的2个挑战,1.显著性检测主要是由整张图像的全局的明暗对比度定义而来,而不是局部或像素点的特征;

2024-01-25 16:38:58 1011

原创 算法训练平台资源

总之试来试去,还是autodl比较方便,但是autodl的资源是真的紧张,经常释放了就等不到卡了。现在很多平台都把github、huggingface都屏蔽了,太麻烦了。

2024-01-25 09:44:49 351

原创 automatic matting 抠图算法汇总

电商图抠图算法,主要还是关注商品图抠图,内部也有自研的抠图算法,下面主要关注开源抠图算法。一般来说关注trimap-free的方法,即一步抠图,业务上也是trimap-free更加友好,当然业务流上可以先计算trimap,然后再走trimap-based抠图。都是和我们抠图类似的思路,先显著性检测Tracerb7模型,在Trimap-based fbamatting精细化抠图。编码器处理单帧图片,先降采样,中间虚线是之前的特征,递归解码器逐步解码,深导滤波器,就是一个可学习的引导滤波器。

2024-01-02 15:36:55 903

原创 Style Aligned image generation via shared attention

可以应用于任何基于注意力的文本到图像扩散模型上,在扩散过程中通过从每个生成的图像到batch中的第一个图像进行最小的attention sharing operations,可以得到一组具有一致风格的图像,此外利用扩散反演,可以根据参考风格图像生成具有一致风格的图像,无需优化或微调。QKV分别为从集合Li的深层特征投影中得到的query,key和value,full attention sharing可能会影响生成图的质量,会导致图像之间的内容泄露,例如图5所示,图像集中的独角兽染上了恐龙身上的绿色颜料。

2023-12-30 16:09:09 472 1

原创 Deep image matting:A comprehensive survy

采用不同的输入方式,适用于自动和辅助方法,对于需要辅助信息来约束解空间的方法,输入方式可以进一步分为多种类型,包括带有trimap的RGB图像,带有background image的RGB图像,带有coarse maps的RGB图像,带有user click的RGB图像,带有flexible inputs的RGB图像,带有text description的RGB图像。图像抠图是指从任意图像中准确提取前景物体的alpha,I表示输入图像,F表示前景,B表示背景,alpha表示不透明度。

2023-12-30 11:14:11 887

原创 gradio 基本样式

【代码】gradio 基本样式。

2023-12-22 11:59:40 89

原创 stable diffusion webui之lora调用

例如<lora:C4D_geometry_bg_v2.5:0.8>;(分数不一定要取到1,0.8也行);2.引用时一定要使用。

2023-12-20 17:24:41 347

原创 CLE Diffusion:Controllable light enhancement diffusion model

首先通过计算平均像素值来提取正常光图像的原始亮度级别lamda,使用一个随机正交矩阵将平均值编码成illumination embedding,照明embedding进一步嵌入到unet中,使用亮度控制模块,Film学习基于照明embedding的特征逐通道放射变换,然后,通过沿通道轴将特征分成两半,一个副本与特征相乘,一个副本与特征图相加。Angular color loss:增加亮度可以放大低光图像中的颜色失真,采用了一种颜色损失,鼓励增强图像y0的颜色和真实值y相匹配;全局和局部直方图均衡化;

2023-12-14 17:46:33 82

原创 MagicAnimate:Temporally consistent human image animation using diffusion model

MagicAnimate,使用Appearance encoder将参考图嵌入为Appearance embedding ya,然后将目标姿势序列,如DensePose,传入姿势控制网络Fp,提取运动条件yp,在这两个信号的基础上,训练视频扩散模型,将参考任务的身份根据给定的运动进行动画化,为了减轻一些片段之间的细微不连续性,采用一种简单的视频融合方法来提高过渡的平滑性,将整个视频分解为重叠的片段,并简单的对重叠帧的预测进行平均,引入了一种图像视频联合训练策略。TikTok和TED-talks数据集,

2023-12-14 15:00:13 166

原创 PowerPaint - A Task isworth one word:Learning with task prompts for highquality vesatile img inpaint

8个A100进行了25k迭代,bs为1024,lr为1e-5,OpenImage V6的语义分割自己作为多任务提示调整的主要数据集,根据Smartbrush,使用分割标签和blip生成局部文本描述,同时,将文本到图像生成任务视为inapinting,即mask掉所有内容,的特例,并使用LAION-Aesthetics v2 5+的图像和文本训练,在训练阶段,主任务和文本图像生成任务概率为80%和20%。图像上有的,一般像移除等,图像上没有的,向文本引导的重新生成。其中,1.文本引导的目标修复,看右边的图;

2023-12-14 11:08:16 670

原创 VideoComposer:Compositional video synthesis with motion controllability

3.时间条件,在temporal维度实现更精细的控制,引入了4个时间条件,a,motion vector,作为视频特定元素,运动向量被表示为二维向量,即水平和处置方向,编码了相邻两帧之间的像素级移动,如图3所示,从研所视频中提取标准的MPEG-4格式的运动向量;2.空间条件,a,单个图像,视频由连续的图像组成,单个图像通常会揭示该视频的内容和结构,给定视频的第一帧作为空间条件进行图像到视频的生成;用LDM的预训练来初始化,1.通过文本到视频生成预训练,专注于temporal建模;

2023-12-13 17:21:35 69

原创 AnimateAnything:Fine-grained open domain image animation with motion guidance

前一帧和后一帧中的灰度值差异,阈值Tm确定了可移动区域和不可移动区域中的运动强度,如果Tm设置的太高,非移动区域的物体可能出现运动,Tm设置的太低,不可移动的区域中的物体可能完全冻结,可能导致运动区域边界出现伪影,在d中识别这些差异区域的轮廓,并通过将标签1分配给这些轮廓内包含的像素,构建运动区域mask,表示可移动区域m。使用以下方法从真实视频中构建训练对,包括视频和相应的运动区域mask,首先,将给定的N帧视频样本转换为灰度图像,计算超过阈值Tm的帧差异,这些差异被合并为创建差异二值mask,

2023-12-13 16:37:06 122

原创 [SaaS] 淘宝AI应用

在刚刚过去的第15个天猫双11里,我们看到,在生成式AI等科技变革和消费行为习惯变迁的时代大背景下,淘宝正在变为新的“AI淘宝”。还有解决用户爱宠数字化难题的AI萌宠产品,利用AIGC新技术为用户的爱宠制作宠物数字分身,可以在线上进行风格化、拟人化、日常打卡、全球旅行等动作,还可以搭配服饰、食品和其他商品,给用户带来更丰富的线上互动乐趣。我们采用扩散模型融合商品多模态信息的生成网络,并融合用户图身份和姿态信息,上线“淘宝试衣”,能够为用户快速生成真实、自然的试衣效果,获得更加个性化的购前决策引导。

2023-12-13 13:43:06 54

原创 X-Adapter:Adding universal compatibility of plugins for upgraded diffusion model

当升级基础模型时,下游插件都需要重新训练,这很难维护。在训练过程中,潜变量来源于同一张图,但是VAE的潜变量空间不同(均值方差不同),在推理时如果对初始潜变量随机采样,如a所示,可能缺乏对齐,提出了一个两阶段的推理策略,如b所示,给定总步长T,第一阶段,随机采样一个初始潜变量Zt用于X-Adapter,并在时间步T0内与插件一起运行,在时间步T0,base模型的潜变量Zt0将转换为upgrade模型的潜变量\hatZt0,3.版本间的插件混合,保留了基础模型和升级模型的权重,允许使用两个模型的插件。

2023-12-13 11:14:26 87

原创 Make pixels dance:high-dynamic video generation

以<文本,第一帧,最后一帧>为指令,文本指令由预训练的文本编码器编码,与unet进行cross-attention,图像由预训练的VAE编码和扰动的视频潜变量或高斯噪声串联编码,作为输入传递给扩散模型,在训练中,使用真实的第一帧来强制模型严格遵循指令,保持连续性。将第一帧和最后一帧的图像和文本结合,在训练中,使用真实的视频帧作为指令,指定第一帧和最后一帧,使用VAE将其编码到扩散模型的输入空间中,采用[first,PAD,last],将image条件和加噪的潜变量沿通道维度连接,作为扩散模型的输入。

2023-12-12 19:33:08 114

原创 AnimateDiff:Animate your personalized text-to-image diffusion models with spectific tuning

运动建模模块的训练类似于latent diffusion model的训练,通过预训练的自编码器,将样本视频数据逐帧编码为潜在code,使用定义的前向扩散对潜在code进行噪声处理,使用包含了motion modeling module的扩散模型将进过噪声处理的潜在code和文本作为提示,并预测添加到潜在code中的噪声强度,同时使用L2损失进行加强,T2I模型的预训练权重被冻结。motion modeling module可以为所有的T2I模型提供动画效果,无需额外的数据收集或定制化训练工作。

2023-12-12 16:54:08 280

原创 Animate anyone:consistent and controllable image-to-video synthesis for character animation

所有的视频帧都会进行多次去噪,但是ReferenceNet只需要在整个过程中提取一次特征,参考网络,主要参考输入的图像。由于去噪unet需要进行微调,因此不引入额外的控制网络,使用了一个轻量级的位姿引导器,该位姿引导器利用四个卷积层(kernel:4x4,stride:2x2,16/32/64/128)将位姿图像与噪声潜变量对齐,分辨率与噪声潜变量相同,随后,在输入去噪unet之前,将处理过的位姿图像添加到噪声潜变量中,利用高斯权重进行初始化,并在最后的投影层中使用零卷积。

2023-12-12 15:46:37 410

原创 Monkey:Image resolution and text label are important things for large multi-model models

解决方案包括:1.使用更大输入分辨率的预训练视觉模块,llava1.5,2.通过curriculum学习增加训练过程的分辨率,QWen-VL,PaLi-3,PaLi-X。Vit-BigHuge的视觉编码器+QWen-VL的llm。直接指令精调,H和W为448,以适配Qwen-VL的编码器,视觉重采样器可学习query为256,主要训练尺寸为896x896,Lora的注意力模块的秩为16,MLP为32,包括一个7.7B的llm,重参数模块是90M,编码器1.9B,lora为117M,整体参数为9.8B。

2023-12-12 11:45:56 83

原创 cogvlm:visual expert for large lanuage models

2.在预训练阶段,cation中的先验信息只能被编码到浅层对齐方法中的视觉特征中,这削弱了视觉特征和文本之间的一致性。visual expert模块:在语言模型的每一层上都加了visual expert,以实现深层次的视觉语言对齐,由一个QKV矩阵和一个MLP组成,和语言模型中的QKV矩阵,MLP的形状相同,并从语言模型中初始化,语言模型中的每个attention head捕捉语义信息,可训练的visual expert可以将图像特征转换为与不同的attention head对齐,从而实现深度融合。

2023-12-11 19:41:34 140

原创 stable video diffusion:scaling latent video diffusion models to large datasets

同样基于base模型,可以微调图生视频模型。使用network preconditioning将图像模型中的固定离散噪声调度微调为连续噪声,对大小为256x384的图像进行微调,在插入temporal layer后,使用256x384的LVD-F对模型进行训练,使用bs为768在100k迭代中微调模型以生成14个320x576的帧。有了基础数据集后,需要关注美学指标,比如视频中静止太多,文本太多,因此使用基于深度光流对视频进行评估,使用了2帧的帧率,把平均光流幅度低于一定阈值的视频都过滤掉了。

2023-12-11 16:45:49 137

原创 文生图:AE/VAE/VQVAE/VQGAN/DALLE模型

有了上述VQ-VAE,可以实现图像压缩,重建,codeformer的超分修复等,但是无法生成新的图像,当然可以随机生成index,然后对应生成量化后的latnet code,进而使用decoder来生成图像,但是latent code完全没有全局信息甚至局部信息,因为每个位置都是随机生成的,引入了pixelcnn来自回归的生成全局信息的latent code,进而可以生成更真实的图像。在VAE的基础上引入了离散的、可量化的隐空间表示,有助于模型更好的理解数据中的离散结构和语义信息,同时避免过拟合。

2023-12-11 14:49:30 145

原创 sdxl-turbo:adversarial diffusion distillation

2.蒸馏,目前包括lcm_lora在内的方法,都是对扩散的去噪过程进行蒸馏,从之前的五十步,三十步道1-4步即可出图。注意文生图算法通常来说,包括两个维度,1.模型架构维度,vae encoder+diffusion+vae decoder,通常再包括一个clip encoder给text侧做embedding,2.扩散理论的加噪和去噪的训练和采样过程,模型架构可以一样,但是在加噪和去噪上同样可以有多种方法的改进,比如采样器,cm,lcm,lcm-lora以及sdxl-turbo这种。

2023-12-11 14:06:59 182

原创 Playground v2:a new leap in creativity

Playground团队刚刚发布了新的文生图模型Playground v2,它是基于SDXL的架构从零训练的模型,但是根据用户评价,它在生成效果上比SDXL强2.5倍。Playgroundv2和sdxl的架构和模型参数都是相同,都是采用两个text encoder,openclip-vit/G和clip-vit/L,可以直接在webui,comfy以及diffusers中加载使用。在包含了2600+个用户的prompts上的人工测评,相比sdxl,playgrpundv2好2.5倍。

2023-12-11 11:35:59 87

原创 Kandinsky-3:text-to-image diffusion model

下面来详细分析下和dalle2的对比,注意到dalle2是先利用clip生成了text和image的embedding,第一个prior可以是扩散模型,也可以是自回归的transformer,利用text embedding生成image embedding,gt是clip编码的image embedding,第二阶段是一个decoder,从image embedding生成图像,是一个扩散模型。kandinsky(瓦西里-康定斯基)是俄罗斯一个著名画家,公认的现在抽象绘画的开拓者。

2023-12-11 11:11:16 335

原创 [PPT] ChatGLM: An Alternative to ChatGPT

2023-12-10 17:18:46 40

原创 LCM-LoRA:a universal stable-diffusion acceleration module

LCM需要微调整个sd模型,consistency model本身可以和sd的网络结构完全一致,但是diffusion model作为ODE,其Solver可以有多种,可以采用硬解法的Solver,比如DPM++等,consistency model解ODE实际上通过的是函数f,f是通过蒸馏得到的,LCM就是在sd基础上利用consistency model蒸馏的,在VAE的潜空间中。既然lcm是对sd的一个微调过程,只是换了一个loss,那就可以使用lora,只用lcm的蒸馏损失优化lora的权重。

2023-12-07 13:51:50 319

原创 latent consistency models: synthesizing high-resolution images with few-step inference

1.采样当前一次训练所需要的数据:从数据集中采样的样本变为了(z,c),即图片latent和图片的caption,sd加噪过程共有N=1000步,从1到N-k中采样当前训练所针对的timestep n,即当前一个sample(z,c)选择了Zn+k、\hatZn这两个点去计算consistency约束loss,最后从[Wmin,Wmax]中选择一个w作为后续预测\hatZn时使用的guidance scale。然而,扩散模型存在一个明显的缺点:迭代反向采样过程导致生成速度缓慢,限制了其实时应用的可能性。

2023-12-07 11:37:20 129

原创 consistency model

注意上图,从data到noise是加噪过程是PFODE,逆向SDE可以等价成ODE形式,在去噪的每个节点上都可以进过函数f映射回样本data,即每个点都可以是加噪轨迹的起点,因为每个点都可以通过f映射回样本(在去噪时能和样本关联上),这个就是consistency约束。将扩散模型的前向扩散过程建模为连续的随机微分方程,这个前向的SDE存在一个反向的形式,这个反向的SDE为去噪过程提供了数值解,所以可以根据反向SDE的数值解一步一步去噪。但是,扩散模型存在的问题也是很明显的,那就是采样速度慢。

2023-12-06 20:08:54 285

原创 显卡算力总结

2023年12月 最新的显卡天梯图和 FP32浮点性能 性能排行榜,包括浮点性能排名、测试得分和规格数据。跑分对比、基准测试比较。2023年12月 显卡天梯图 FP32浮点性能 性能排行榜 | TopCPU.net。

2023-12-06 16:25:02 634

原创 Fuyu-8B: a multimodel architecture for ai agents

看看cogview1、cogview2:

2023-12-05 16:37:26 84

imagemagick.zip

imagemagick的pdf教程以及中文翻译版本

2022-01-18

图像篡改检测.zip

图像篡改ppt。

2019-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除