自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

liguandong

github:https://github.com/leeguandong

  • 博客(883)
  • 资源 (2)
  • 收藏
  • 关注

原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!

learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。

2023-12-03 15:08:05 336

原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!

3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1453

原创 深度推理模型的测评

1.科大讯飞X14.GLM-Zero。

2025-02-08 10:10:29 38

原创 深度推理COT常用测评数据集

数学与推理:AIME、Math-500、LogiQA等。知识广度编程能力生成质量多语言与伦理部分数据集(如AIME 2024、MATH500)已被用于直接对比DeepSeek-R1和O1的性能。此外,李飞飞团队近期提出的s1K数据集(1000个数学问题)展示了通过小规模高质量数据微调实现高效推理的可能性。

2025-02-08 09:45:19 40

原创 [SaaS] 内容创意生产平台

7.

2025-01-27 13:06:52 74

原创 Fine-Grained head pose estimation without keypoints

Fine-Grained Head Pose Estimation Without Keypoints-论文解读代码论文Abstract传统的头部姿态计算方法是通过人脸上关键点求解二维到三维对应问题,因为对landmark 检测性能的依赖而导致存在不足。论文中提出一种基于多损失卷积神经网络的姿态估计方法。在代码中交叉熵(CrossEntropyLoss)包含了softmax,分类时从-99到99,以3为间隔,共67个值,66个间隔,作为离散的分类,对这些使用交叉熵计算损失。

2025-01-23 11:25:10 519

原创 人物一致性训练测评数据集

测试:从VGGFace2中选取了每个id的一张图片,共500个id,用于生成的提示词仅限于简单的类别名词,如男性或者女性,多乐衡量多样性,提示词则是一个类别名词和一个表情词,如快乐,悲伤和生气的组合。测试:从CelebA-HQ中随机选择300个id进行评估,每一个id有一个参考图像你,此外,还收集了一个25个id的数据集,每个id下有4个图像用于多参考图像设置下的评估。测试:手动选取的额外id和一部分Mystyle数据,对于文本提示,考虑了6个因素,服饰,配饰,动作,表情,视角和背景。

2025-01-18 23:48:45 82

原创 clip中绘制特征图

heatmap以及cam图,现在大部分clip特征不可用的原因还是因为都是计算text和image相似度的,看输入的text在image上面的表现的热力图。不行,先分块,然后在一块一块和text计算相似度,在转成图片去计算attention图。通过hook机制写的,相当于把clip中每一行的特征全部都可视化出来了。

2025-01-16 13:55:59 40

原创 ConsistentID:Portrait Generation with Multimodal fine-grained identity preserving

为了充分融合图像和文本,设计了一个面部编码器,以在文本序列的维度上无缝整合视觉提示和文本提示,给定facial embedding和text embedding,面部编码器最初采用自注意力机制将整个面部特征和面部区域特征对齐,从而得到对齐特征,N=5表示脸部的5个区域,包括眼睛、嘴巴、耳朵、鼻子和其他面部区域,下图的右侧是用facial替换的5个关键词,缺失的补0,最后,将已富含id信息的文本特征被输入到两个多层感知机中,已学习文本条件embedding。细粒度的面部视觉和文本embedding。

2025-01-15 15:30:43 27

原创 人物一致性测评方案

从互联网上收集了一个多样化的肖像测试集,该数据集涵盖了多种肤色、年龄和性别,共计120张图像,我们称之为DivID-120,作为补充资源,还使用了最近开源的测试集Unsplash-50,包含了2024年2月至3月期间上传到Unsplash网站的50张肖像图像。测试集包括15个对象和30个文本。

2025-01-14 10:24:39 45

原创 VBench:Comprehensive benchmark suite for video generateive models

为了评估物体的颜色是否符合指定条件,使用GRiT的描述能力来描述颜色,GRiT识别物体的边界框,然后将其送入两个文本编码器,一个预测类别,另一个用于生成合成视频帧的密集描述,然后我们验证对应物体的颜色是否在所有的帧中成功描述,在生成对应物体并且描述包含颜色信息的帧中,我们计算文本提示所需颜色成功描述的帧的百分比。对于真实视频,时间闪烁通常是频繁的光照变化或在视频捕捉过程中相机抖动造成的结果,对于生成的视频,时间闪烁是视频生成模型的内在属性,通常是由于局部和高频细节的时间不一致不好导致的。

2025-01-13 15:40:00 177

原创 EVA-02:A visual representation for neon genesis

EVA系列方法均按照MVP[5]提出的基于多模态视觉Encoder作为Teacher来生成Mask Token的特征作为Student模型的监督信息,训练时的Loss使用Teacher输出的特征和Student输出的特征负余弦相似度(negative cosine similarity)。对于256个视觉Token,随机Mask的比例设置在40%左右,即102个。模型的视觉Encoder作为Teacher,EVA V2使用了智源自己训练的gaint规模多模态模型EVA-CLIP作为Teacher。

2025-01-13 10:45:54 38

原创 Omost:llm生成可组合图像

在flux中,区域生成的方法也有很多,也不一定需要attention score这种做法,但是确实和attention score比较类似的。这段代码产生一个文本相关的画布,首先有一个针对全局的文本描述,然后是有各个主体的局部描述以及大小和位置,这样生成的图像其实一个全局+局部描述组合出来的图像。总共有9*9*9=729个矩形框,之所以是定义一些框,而不是llm来直接预测矩形框的坐标,因为前者更容易。画布还会和文本prompt关联,文本prompt包括一个全局的描述,同时也包括子主体的描述。

2025-01-08 11:14:08 41

原创 flux中的region control

i2i是图像到图像之间的自注意力,i2t是图像到文本之间的cross attention,t2i是文本到图像的cross attention,t2t是文本到文本的自注意力。文生图模型在准确处理具有复杂空间布局的提示时仍然面临挑战,1.通过自然语言准确描述特定的空间布局非常困难,特别是当对象数量增加或需要精确的位置控制时,2.模型的prompt fllowing在处理复杂元素和长文本的关系时,仍然会有漂移问题,如混淆概念和遗漏元素,因此显式的空间控制在组合生成中是有必要的。

2025-01-07 17:53:22 54

原创 Training-free regional prompting for diffusion transformers

i2i是图像到图像之间的自注意力,i2t是图像到文本之间的cross attention,t2i是文本到图像的cross attention,t2t是文本到文本的自注意力。文生图模型在准确处理具有复杂空间布局的提示时仍然面临挑战,1.通过自然语言准确描述特定的空间布局非常困难,特别是当对象数量增加或需要精确的位置控制时,2.模型的prompt fllowing在处理复杂元素和长文本的关系时,仍然会有漂移问题,如混淆概念和遗漏元素,因此显式的空间控制在组合生成中是有必要的。

2025-01-07 14:51:24 213

原创 Transparent image layer diffusion using latent transparency

https://zhuanlan.zhihu.com/p/685029401https://zhuanlan.zhihu.com/p/685029401https://zhuanlan.zhihu.com/p/684362351https://zhuanlan.zhihu.com/p/684362351https://github.com/huchenlei/ComfyUI-layerdiffusehttps://github.com/huchenlei/ComfyUI-layerdiffuseAdapti

2025-01-07 09:52:37 30

原创 OminiControl:Minimal and Universal control for diffusion transformer

2.add限制了条件和图像标记之间潜在的交互。编码的条件标记C1与噪点图像标记X具有相同维度和隐空间,使其能够被transformer块直接处理,因为条件标记和图像标记位于相同的隐空间中,OminiControl利用现有的DiT块来联合处理他们,只需要通过lora来对这些块进行最少的微调,以适应处理额外的条件标记。利用现有的架构,OminiControl重用基础DiT模型中的VAE编码器,将条件图像投影到与噪点图像标记相同的隐空间中,与clip以及controlnet的额外控制相比,减轻了架构的复杂性。

2025-01-03 11:37:26 70

原创 DiT架构特征融合方式

文章详细探讨了DiT的设计,包括不同条件信息的嵌入方法,并展示了最大模型DiT-XL/2在ImageNet 256x256类别条件生成任务上的优秀表现。本文探讨了如何将额外信息融入稳定扩散模型(stable diffusion),包括直接拼接、使用Spatialtransformers和cross-attention机制,以及Controlnet和Adapter设计。

2025-01-03 10:51:18 48

原创 Bilateral reference for high-resolution dichotomous image sementation

1.BiRefNet将HR数据上的DIS任务显式的分解为两个模块,即Localization module和Reconstruction module,即定位模块和重建模块。2.BiRefNet在RM中采用双边参考,充分利用源图像和梯度先验。大多数分割都是encoder-decoder结构;双向参考包括InRef和OutRef,InRef补充HR信息,OutRef关注细节丰富区域。BCE、IoU、SSIM、CE四个损失结合在一起,考虑到背景可能会有大量梯度信息的非目标噪声,

2025-01-02 17:40:09 377

原创 retinaface人脸矫正模块

通过前面的描述我们知道,RetinaFace里面采用了特征金字塔FPN,其中低层特征用来检测小的人脸,高层的特征用来检测大的人脸,但是如果下游是人脸识别任务的话,小的人脸对于人脸识别结果不论是在准确率还是召回率方面都没有太多正向的作用。我看到retinaface输出的bbox和kps中有负值,在insightface全流程的代码中,会有一个face_align的矫正模块,在一些三方的retinaface+facenet的模块中我也看到了对于负值的矫正。后续结合arch来解码真实的框,所以会有负值的。

2024-12-24 09:57:59 944

原创 Identity-Preserving Text-to-video Generation by Frequency Decomposition

为了解决这些问题,首先使用人脸识别主干提取内在id表征中强的特征,并使用clip图像编码器捕捉再予以强的特征,然后,我们使用Q-former来融合这两种特征,生成富含高频语义信息的内在身份特征,为了减少clip中无关特征的影响,在进入q-former之前应用dropout,此外,将经过插值处理的,来自人脸识别主干的浅层多尺度特征与clip特征进行连接,确保在有效捕获基本内在id特征的同时,过滤掉与id无关的外部噪声。为了减轻训练的复杂性,提出了一种分层策略,在该策略中,模型先全局学习信息,然后再局部学习。

2024-12-23 12:04:22 48

原创 ID一致性 train-free方法总结

采用了在人脸数据集上预训练的vit,native映射最终层的输出身份向量只能带来次优的身份保留,最终层主要包含适合于判别任务的高层语义,不是生成任务,比如相同身份的不同表情应该在面部识别训练损失下共享类似的表征,而生成则需要更详细的信息,比如面部表情,因此仅映射最后一层表征会成为生成任务的瓶颈,为了解决上述问题,利用了面部编码器的多尺度特征带来更真实的表征身份,具体来说,通过来自第3,6,9,12层的四个cls进行增强。保持文本的可编辑性,改变风格;

2024-12-18 11:02:22 57

原创 DreamIdentity:Improved Editability for efficient face-identity preserved image generation

2.训练和测试之间目标不一致。采用了在人脸数据集上预训练的vit,native映射最终层的输出身份向量只能带来次优的身份保留,最终层主要包含适合于判别任务的高层语义,不是生成任务,比如相同身份的不同表情应该在面部识别训练损失下共享类似的表征,而生成则需要更详细的信息,比如面部表情,因此仅映射最后一层表征会成为生成任务的瓶颈,为了解决上述问题,利用了面部编码器的多尺度特征带来更真实的表征身份,具体来说,通过来自第3,6,9,12层的四个cls进行增强。重建目标就是图2的c中的第一行,就是原图输出原图测。

2024-12-18 10:38:51 121

原创 Implicit style-content separation using lora

用于图像风格化的lora:lora通常用于图像风格化,通过微调模型以生成所需风格的图像,通常,一个lora在一组图像上训练,然后与控制方法结合,如风格概念滑块stylistic concept-sliders或者controlnet以及文本提示以调节生成图像的内容,尽管基于lora的方法在捕捉风格和内容方面显示了显著能力,但这个人物需要两个单独的lora模型。给定一个输入图像I,只微调lora权重W4和W5,目的是重建图像,针对一个一般的文本提示A[v],仅训练两层,其中W4捕获内容,W5捕获风格。

2024-12-06 21:29:46 126

原创 IC-Context lora for diffusion transformers

最终设计的框架通过在训练期间直接连接成一个大型图像,从而同时生成一组图像,同时将它们的标题整合为一个合并的提示,包含整体描述和每个storyboard的清晰指导,在生成图像之后,再将图像进行切分。为了支持对额外图像集的条件处理,采用了SDEdit,这是一种无训练方法,基于一个没有mask的图像集进行图像修补,所有图像均合并在一个大型图像内。文本到图像模型能够从一个包含多个描述的单一提示词中生成连贯的多张图像,因此可以使用合并的图像提示来简化架构,而不需要只关注其各自的文本标记token。

2024-12-06 21:27:54 217

原创 ComfyUI-PuLID-Flux-Enhanced中的train_weights优化

假设有一个real id embeddding,理想的表达了id特征,使用该embedding,可以获得最佳的id保真度。虽然我们使用选定的样本作为目标,但训练后的权重不会完美的指向目标,如果是这样,只需要使用选定的权重,无需训练。注意观察到pulid多了训练模块,但是pulid本身也没有什么问题,主要的问题还是在和lora结合时产生的一些变化,他会改变lora的一些风格特征。train_weights,可以用小于2000步进行训练,从而实现比非训练更深的融合,过多的训练步骤会导致训练崩溃。

2024-12-03 21:26:51 159

原创 sd-scripts-sd3中的flux_minimal_inference.py代码分析

【代码】sd-scripts-sd3中的flux_minimal_inference.py代码分析。

2024-11-26 11:59:41 57

原创 flux的权重版本

原生12B的模型,float16的。需要配合ae.safetensors,flux1-dev.safetensors以及clip-l和T5的权重使用,注意ae.sft和flux1-dev.sft只是之前的叫法,现在都改成safetensors了。Kijai大神的两个flux的fp8的版本,都是11.9G,这两个版本只是方法的差异,本身都是fp8的模型。这是个17.2G的fp8的模型,因为其包含了两个clip模型,因此是17.2G.4.flux-dev-fp8.版本2,Xlabs-AI。

2024-11-23 23:45:37 164

原创 Pulid:pure and lightning id customization via contrastive alignment

2.缺乏保真度,gan时代的经验,提高id保真度的一个直接想法是在扩散训练中引入id loss,扩散模型需要迭代去噪,准确获取X0需要多个多个步骤,直接从当前时间步预测X0,然后计算id损失,然而当当前时间步较大时,预测的X0往往是有嘈杂和有缺陷的,这种情况下计算id损失显然是不准确的,因为人脸识别backbone是在真实图像上训练的。可以解决上述两个挑战,1.为了最小化对原始模型行为的影响,构建了一个contrastive pair包括了相同的提示和初始化潜变量,分别进行id插入和不进行id插入。

2024-11-22 21:28:10 152

原创 flux代码解析

为了让transformer知道词语的前后关系,就要给transformer中的token注入某种位置关系,仅仅告诉每个token它的绝对位置是不够好的,这样做最明显的缺点是模型无法处理训练时没有见过的长序列,比如说训练集里最长的句子是512的位置编码,就不能很好的处理512之后的token,因此,我们不仅希望每个token知道自己的绝对位置,还希望token能从位置编码中知道相对位置的信息。cfg的本意是过两遍去噪模型,一次输入空文本,一个输入为给定文本,让模型远离空文本,靠近给定文本。

2024-11-21 21:25:51 167

原创 [SaaS] oppo生成ai端云落地实践

https://zhuanlan.zhihu.com/p/698776284https://zhuanlan.zhihu.com/p/698776284

2024-11-12 17:15:59 168

原创 [SaaS] 数禾科技 AIGC生成营销素材

https://zhuanlan.zhihu.com/p/923637935https://zhuanlan.zhihu.com/p/923637935

2024-11-12 13:51:42 222

原创 可控扩散生成

通俗来讲,MultiDiffusion可以理解为Repaint的多Mask版本,它在每步中拼接多个区域生成的图像(根据叠加多少次来决定权重),然后寄希望于去噪过程的鲁棒性来消除边界处的不和谐。显然,因为不同区域核心处仍然互不干扰,最终生成的图像风格差异也难以避免。该方法的提出来源于两个重要的观察,其一,输入的文本 token 所对应的 Cross-Attention 具有很强的语义性(也是P2P所观察到的);有趣的是,作者探索并对比了两种不同的指导方式:其一,在推理的前向过程中施加区域限制,也即前向指导。

2024-11-05 15:54:02 73

原创 Training-free layout control with cross-attention guidance

来完成多个区域的绘制,也即 layout control。有趣的是,作者探索并对比了两种不同的指导方式:其一,在推理的前向过程中施加区域限制,也即前向指导。其二,类似Blended Diffusion中的基于梯度更新的思路,也即反向指导。支持两种模式,1.sd文生图;2.绑定了dreambooth和text inversion的图像编辑。

2024-10-31 19:40:20 123

原创 Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models

但跟P2P不同的是,Attend-and-Excite建立某个评价损失函数并反向传播梯度来刺激更新latent,而非直接通过加权来强制增大对应值。目前比较流行的以文生图模型,虽然能够生成很惊艳的图像,但是仍然可能无法完整表达文本提示中的语义信息。如图1下排所示,加上本文所提出的改进技术,就能生成具有完整语义信息的图像。的概念,试图在推理期间干预生成过程,以提高生成图像的可信度。如图1 上排右边所示,错误的将凳子的颜色生成了黄色。,从而指导模型生成文本提示中描述的所有。,或者将属性绑定到错误的。

2024-10-31 19:26:39 76

原创 When controlnet meets inexplicit masks:a case study of controlnet on its contour-following ability

利用LVIS中的实例mask,提供了精确的人为标注的coco图像的对象mask,涵盖了超过1200个对象类别,最终使用114k图像-标题-mask三元组用于训练,和4.7k用于测试,即coco-LVIS.sd1.5作为基模,在coco-LVIS上训练controlnet,10epoch,lr=1e-5,50%的cfg,unipc,50steps。文章本身很简单,主要就是探讨mask的变化对最终controlnet生成的影响,对mask进行膨胀,然后界定膨胀的程度是否会对生成的结果存在伪影。

2024-10-31 17:08:03 129

原创 diffusers中的pipeline_stable_video_diffusion和comfyui中的SVD_img2vid_Conditioning参数对应关系

SVD img2vid Conditioning|SVD_图像到视频_条件-ComfyUI节点 – ComfyUI-WIKI。comfyui中的augmentation_level对应哪个参数呢?主要涉及svd的参数,在comfyui中非常难调。

2024-10-15 14:27:57 97

原创 EasyAnimate

EasyAnimate v4是一个用于生成高分辨率和长视频的端到端解决方案。我们可以训练基于转换器的扩散生成器,训练用于处理长视频的VAE,以及预处理元数据。基于类SORA结构与DIT,使用transformer进行作为扩散器进行视频与图片生成。我们基于motion module、u-vit和slice-vae构建了EasyAnimate,未来我们也会尝试更多的训练方案一提高效果。

2024-10-10 14:44:30 196

原创 swift使用llama3.2-vision微调xray数据集

记住微调要用swift的main分支,也就是以后得2.4.3版本,里面会有最新的llama3.2-vision,此外transformers要升级到4.45.1最新版本。

2024-10-07 16:59:33 671

原创 swift使用internvl2微调ocr文字检测(目标检测)

目标检测任务已经不是一个新鲜事了,但是多模态大模型作目标检测任务并不多见,本文详细记录swfit微调interVL2-8B多模态大模型进行目标检测的过程,旨在让更多人了解多模态大模型微调技术、共享微调经验。实际上,interVL2-8B多模态大模型在该任务上微调后的表现并不好。与此同时,我们还就电力巡检场景进行了微调测试,精度达到了80左右,其实也比较一般,综合来看,大模型其实并不那么擅长目标检测。进行9:1的划分,主要是自有数据,只用了很少一部分的自有数据来跑通链路。

2024-10-07 16:09:32 974

imagemagick.zip

imagemagick的pdf教程以及中文翻译版本

2022-01-18

图像篡改检测.zip

图像篡改ppt。

2019-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除