Kun Li-CSDN博客

原创创意项目开源，文生图、排序/优选等...，持续开源更新！！

learn-to-rank框架，召回/粗排/精排/重排中的重排模块，之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架，召回/粗排/精排/重排中的重排模块，之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架，召回/粗排/精排/重排中的重排模块，之前主要是动态创意优化时对包括图片等特征进行重排。，中文文生图算法集合。

2023-12-03 15:08:05 379

原创 sd_webui的实用插件，prompt/lama/human matting/...，持续开源更新！！

3.sd_webui_sghm 人像抠图，在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1501

原创 BAGEL：Emerging properties in unified multimodal pretraining

1.自回归视觉生成：使用离散视觉tokenizer，如VQGAN将图像编码为tokens，通过自回归Transformer直接预测下一个token（文本和视觉统一建模），代表模型如Janus、Chameleon，架构简单，可复用现有的LLM模型，但生成质量受限，视觉生成效果显著低于扩散模型，自回归的顺序生成难以建模复杂像素依赖，推理效率低，逐token生成导致长序列推理延迟高，1024x1024推理可能需要数千步。1.架构割裂：理解、生成分属两条网络，信息被压缩在少量条件token中，长上下文推理受限；

2025-06-12 10:42:52 6

原创 WAN:Open and advanced large-scale video generative models

图像-视频联合训练：在大规模256p文本到图像预训练之后，通过分辨率渐进的方式实行图像和视频数据的分阶段联合训练，训练包括三个不同阶段，按分辨率区分：1.在第一阶段，使用256p的图像和5s的视频片段（192p,16fps）进行联合训练；从内部版权来源和公开可访问的数据中采集并去重，预训练阶段，我们的目标是从这个庞大而噪杂的数据集中选择高质量和多样化的数据，以促进有效的训练，设计了一个四步数据清洗流程，重点关注基本维度、视觉质量和运动质量。Wan-VAE实现了仅127M参数的模型，遵循MagViT-v2，

2025-06-09 10:43:28 21

原创 FLUX的实时显示

4.步骤 5 VAE解码失败: Given groups=1, weight of size [512, 16, 3, 3], expected input[1, 64, 36, 64] to have 16 channels, but got 64 channels instead。主要是因为调错了vae的unpack方法。即将中间形态的图片全部返回回来。

2025-05-27 19:01:26 60

原创 ConceptAttention:Diffusion Transformers learn highly interpretable features

然而，与文本提示不同的是，concept embeddings不会影响图像的外观。ConceptAttention，是一种利用多模态DiT的表示来生成高保真显著性图，以定位图像中的文本概念，提供了对DiT表示的丰富语义的insight，ConceptAttention是轻量级的，不需要额外的训练，而是重新利用了DiT注意力层的现有参数，其工作原理是生成一组丰富的上下文文本嵌入，每个嵌入对应于视觉概念，通过线性投影这些概念嵌入和图像，可以生成丰富的显著性图，这些图的质量比常用的交叉注意力图还要高。

2025-05-23 23:38:34 152

原创 FLUX或WANX量化

1.2.3.

2025-05-22 09:13:28 37

原创 Ulyssess & Ring Attention

DeepSpeed Ulysess：切分Q、K、V序列维度，核心卖点保持通信复杂度低，和GPU数无关，和序列长度呈线性关系。Ring-Attention：切分Q、K、V序列维度，核心卖点是通信和计算重叠。

2025-05-17 23:45:46 183

原创 Paraattention深度解析

与跨设备拆分权重的传统模型并行方法不同，上下文并行在 GPU 之间划分激活（上下文），允许每个 GPU 处理序列的一部分，同时需要最少的设备之间的通信。Ring Attention 以环形形式在多个 GPU 之间划分注意力计算，其中每个 GPU 处理序列的一部分，并将中间结果与相邻的 GPU 通信。上下文并行实现了多种注意力机制，已优化不同硬件设置和模型架构的性能，UnidiedAttnMode结合了Ulysses和Ring注意力，Ring attention以环状模式在GPU之间分配注意力机制；

2025-05-17 23:30:35 159

原创 FLUX并行加速

optimum-quanto这个库和lora的不兼容问题，diffusers降级到0.31.0之后的新问题,解决方法：降级diffusers到0.31.0，其次升级optimun-quanto到0.2.5，这种情况下用e4m3fn全是噪声，直接到/dev_share/gdli7/miniconda3/envs/py312_comfyui/lib/python3.12/site-packages/optimum/quanto/tensor/weights改代码。在随机噪声这里，可以这么解决，

2025-05-15 10:02:37 54

原创 llama_factory0.9.3微调Qwen3

本文介绍了如何使用LLaMA-Factory微调Qwen1.5模型，包括1.8B和0.5B版本的训练细节。在数据、训练、LORA融合及推理等方面进行了探讨，同时也分享了微调后模型在不同任务上的表现，如聊天对齐和显存占用等。在examples/train_lora中选择llama3_lora_sft.yaml。llama_factory微调QWen1.5-CSDN博客。在4卡A100上微调的，没用deepseed。

2025-05-05 15:02:03 698

原创 agent course-3

https://huggingface.co/learn/agents-course/zh-CN/unit1/dummy-agent-libraryhttps://huggingface.co/learn/agents-course/zh-CN/unit1/dummy-agent-libraryhttps://colab.research.google.com/#scrollTo=8WOxyzcmAEfI&fileId=https%3A//huggingface.co/agents-course/noteb

2025-04-30 16:01:17 287

原创 agent course-2

思维代表着智能体解决人物的内部推理与规划能力，这利用了智能体的llm能力来分析其prompt中的信息，这是智能体内部的对话，在此过程中会考量当前任务并制定应对策略，智能体的思维负责获取当前观察结果，并决定下一步应采取的行动，通过这一过程，智能体能够将复杂问题分解为更小、更易管理的步骤。是智能体感知其行动结果的方式，能提供关键信息，为智能体的思考过程提供指导。框架可以轻松的解析到要调用的函数名称和要应用的参数，这种清晰的，机器可读的格式最大限度的减少了错误，并使外部工具能够准确处理智能体的命令。

2025-04-30 15:45:05 67

原创 agent course-1

llm只能接受文本输入并生成文本输出，无法自行调用工具，当我们谈及为智能体提供工具时，实质是教导llm认识到工具的存在，并要求模型在需要时生成调用工具的文本，例如，若我们提供从互联网获取某地天气的工具，当询问llm巴黎的天气时，llm将识别该问题适合使用我们提供的天气工具，并生成代码形式的文本来调用该工具，智能体负责解析llm的输出，识别工具调用需求，并执行工具调用，工具的输出将返回给llm，由其生成最终用户响应。工具是赋予llm的函数，常用的工具包括，网络搜索，图像生成，信息检索，API接口。

2025-04-30 14:43:34 545

原创 smolagents - Guided tour

在这种框架，多个agent协同工作来解决问题，对于许多任务，与其使用一个包罗万象的系统，不如让单元专门负责子任务，在这种情况下，拥有独立工具集和内存的代码可以更专业。工具是agent使用的原子函数，要被llm使用，它还需要一些构成其api的属性，这些属性将用于向llm描述如何调用此工具，可以创建自己的新工具。model，一个文本生成模型，支持agent，agent不同于简单的llm，是一个使用llm作为引擎的系统。

2025-04-30 10:59:35 37

原创 smolagents介绍

是否真的需要灵活的工作流程来完成手中的任务，如果预先设定的工作流程经常会出现问题，意味着需要更大的灵活性，例如，假设正在开发一款旅游网站，可以提前知道强求强属于哪种情况，每种情况都有一个预定义的工作流程，1.想了解一些旅游知识？需要更大的灵活性，这就是agent有用的地方，可以创建一个多步骤agent，该agent可以方位天气api进行天气预报，google maps api来计算旅游距离，知识库中的rag。tools和model是必备的，2.如何使用agent。4.1 构建agent。

2025-04-30 10:26:30 53

原创 SVDQuant:Absorbing outliers by low-rank components for 4bit diffusion models

https://zhuanlan.zhihu.com/p/8487841492https://zhuanlan.zhihu.com/p/8487841492

2025-04-28 16:30:39 55

原创 InstantCharacter：Personalize any characters with a scalable diffusion transformer framework

提出了InstantCharacter框架，这是一个为角色驱动图像生成设计的可扩展的transformer框架，3个优势，1.通用性；基于flux.1-dev实现InstantCharacter.调优方法对于数十亿参数的dit架构，计算上很贵。通用视觉编码器：用SigLIP代替CLIP，此外引入了DINOv2作为另一个图像编码器，以增强特征的鲁棒性，最后通过通道级联整合dinov2和siglip。投影head：最终的特征通过投影到去噪空间，并与潜在噪声进行交互，通过一个时间步感知的Qformer实现。

2025-04-28 16:13:23 436

原创 VisualCloze:A universal image generation framework via visual in-context learning

在扩散模型下，图像生成领域的应用很多，包括图像编辑、风格转换、虚拟试穿以及个性化生成，然而这些任务通常需要特定于任务的模型，这限制了实际应用的效率和可扩展性。希望用一个单一统一的框架来处理多样化的图像生成任务。大语言模型通过incontext learning，允许模型仅通过少量示例适应各种任务，我们的目标是在纯视觉模型中复制这种上下文的概念，让模型可以直接从几个视觉示例作为任务示范中学习所需的任务。GPT3使语言模型在给出少量示范的情况下理解和执行复杂人物。

2025-04-28 15:34:24 131

原创 Dreamid：High-fidelity and fast diffusion-based face swapping via triplet id group learning

本文提出了一种准确且显式的监督训练框架，通过构建三元组ID组数据来增强面部交换模型的ID相似性和属性保留能力。即梦的AI写真就是这个算法，实测感觉不太行。

2025-04-28 14:43:26 39

原创 GPT-ImageEval:A Comprehensive Benchmark for Diagnosing GPT4o in image generation

GPT-ImgEval是第一个综合基准，旨在评估GPT-4o在图像生成方面的能力，评估三块，文本到图像生成，用GenEval评估，基于指令的图像编辑，用Reason-Edit评估，世界知识驱动的语义合成，用WISE评估。图像生成中的不一致性：图像生成中GPT4o经常难以完美再现输入图像，即使在不需要编辑的情况下，明确无更改的prompt，也可能有更改，在图像尺寸上尤为明显，可能会输出不可预测的纵横比变化或自动边缘裁剪和重新缩放。复杂场景生成中的失败：在空间推理和高视觉复杂性上保持一致性是比较困难的。

2025-04-28 13:57:05 224

原创 ChatGen: Automatic text-to-image generation from freestyle chatting

我们认为，自动化T2I应视为一个复杂的多步骤推理问题。我们旨在开发一个可以接受任意用户输入的模型，类似于chatgpt，并自动生成所有必要的生成组件，成为自动T2I，提出了一个ChatGenBench，包含了6807个定制模型的高质量配对数据的丰富数据集，每对数据包含用户的自由聊天输入、精炼的提示、适当的模型和优化的参数。多阶段策略训练，阶段1，通过sft写提示，阶段2，通过模型标记进行模型选择，模型标记训练，在训练过程中，用户输入c和提示p被拼接作为前缀，特殊的模型标记被附加为下一个标记预测的真实值；

2025-04-28 10:33:01 34

原创 seededit: Align image re-generation to image editing

引入了一种新框架，将图像生成扩散模型转换为编辑图像的模型，图像编辑的本质上image reconstruction和re-generation之间的平衡，产生了一个能够根据指令或描述修改图像的模型，称之为seededit。成对图像数据的稀缺性是图像编辑的核心难点，具体来说，首先将文本到图像模型视为一个弱编辑模型，改造它通过生成带有新提示的新图像来实现编辑，随后，将这种弱编辑模型反复进行蒸馏和对齐，以最大程度的继承在生成能力，同时提升图像一致性。SeedEdit是从一个预训练好的文生图模型开始，这里支持。

2025-04-27 15:23:52 51

原创 Step1X-Edit: A practical framework for general image editing

为了有效训练token并实现丰富的跨模态，从flux-fill中引入了token连接机制的灵感，关键思想是增强模型在对比视觉上下文中的推理能力，在训练过程中，目标图像和参考图像同时输入系统，目标图像首先由VAE编码器编码，然后添加高斯噪声以促进泛化，生成的潜在表示随后被线性投影为图像标记表征，相比之间，参考图像在没有噪声的情况下编码并进行类似的投影，这两组图像标记沿标记长度维度连接，形成一个双倍token长度的融合特征，作为最终的视觉输入。我们的方法在参考图像重建和编辑提示词跟随之间保持了良好的平衡。

2025-04-27 14:30:06 96

原创 uno：less-to-more generalization unlocking more controllability by in-context generation

主题驱动生成包括dreambooth，text inversion，lora，每个主题都需要调参，ipadapter，blipdiffusion使用额外的图像编码器和新层来编码主题的参考图像，并将其注入到扩散模型中，DiT，IClora，Ominicontrol探索了transformer中固有图像参考能力，并且指出DiT本身是可以作为主题参考的图像编码器。利用DiT模型内在的上下文生成能力，引入了一种高分辨率、高一致性的数据合成pipeline，合成数据的质量可以显著提升模型的性能。

2025-04-27 10:05:05 43

原创视频生成上下文并行方案

在多张rtx4090上的并行生成方案，主要就是xdit和paraattention中的并行上下文注意力机制。希望找到一个和skyreel一致的para attn的并行方案。skyreel有很不错的多gpu推理方案，可以参考来实现。只有wan2.1的多卡推理，还是文生视频的。paraattention的方案最好。目前只支持了文生视频的多gpu推理。只有单卡的不同版本的混元视频的推理。我没看到i2v的多卡推理。也没看到多卡gpu的推理。也没看到多卡推理的方案。

2025-04-21 17:48:44 248

原创 FLUX加速总结

flux加速技巧包括lora加速，lora中还有好几个有字节的加速方案，也有其它的，还有torch.compile，再有就是teacache，wavecache，xidt以及nunchaku等，下面我整体总结一下。还可在线进行模型训练。Teacache和wavespeed原理是比较类似的，组合效果未必更好，wavespeed如果不用动态fp8，也就是compile的编译模式，实际上就是fbcache。flux.1-lite-8B-alpha的最优实现-工作流-AIKSK-LiblibAI。

2025-04-10 14:24:38 97

原创 Timestep embedding tells:it s time to cache for video diffusion model

时间步嵌入随着时间步的进展而变化，但与噪声输入和文本嵌入独立，因此很难完全反应输入的信息，噪声输入在去噪过程中逐渐更新，并包含来自文本嵌入的信息，但对时间步的敏感性较低。以前的方法通过在均匀选择的时间步上缓存和重用模型输出来加速模型，然后，这种策略忽略了面模型输出在时间步之间的差异并不均匀之一事情，妨碍了选择适当的模型输出进行缓存，从而导致推理效率和视觉质量之间的平衡不佳。

2025-04-07 15:32:54 65

原创 Wavespeed与ParaAttention

AdaCache还表明，缓存可以在不牺牲生成质量的情况下显著提高推理速度，但Teacache比较复杂，因为需要一个重新缩放策略来确保缓存的准确性，在ParaAttention中，我们可以直接使用第一个transformer块输出的残差来近似模型输出之间的差异，当差异足够小时，可以重用前面推理步骤的残差，这意味可以实际跳过当前这个去噪步骤。torch.compile需要先编译，会花一段时间。FBCache，会观察模型运行的第一个步骤，如果发现和上次很像，就直接跳过后面好很多重复步骤，直接使用上次结果。

2025-04-07 14:14:27 54

原创 ReAct: Synergizing Reasoning and Acting in Language Models

https://zhuanlan.zhihu.com/p/624003116https://zhuanlan.zhihu.com/p/624003116https://github.com/apssouza22/ai-agent-react-llm/tree/mainhttps://github.com/apssouza22/ai-agent-react-llm/tree/mainhttps://github.com/datawhalechina/tiny-universe/blob/main/conten

2025-03-25 10:09:01 173

原创 Infinite you:flexible photo recrafting while preserving your identity

Infiniteyou，引入了InfuseNet，作为controlnet的一种推广，能够接受id信息以及控制条件，通过残差连接，infusenet将投影的id特征注入到DiT基础模型中，从而使文本和id注入解耦。在训练过程中，投影网络和InfuseNet是可训练的，而其他模块保持不变，这种id特征的残差注入与通过注意力层的文本注入不同，有效的将文本和id输入分开，从而减少潜在的纠缠和冲突，得益于这种不依赖ipa的纯残差注入设计，基础的生成能力得到了更少的妥协，产生了更高质量和改善的文本-图像对齐。

2025-03-24 17:24:51 103

原创 Agents:building effective agents

2.将简单/常见问题路由到较小的模型，将困难/不寻常的问题路由至功能更强大的模型，以优化成本和速度。随着llm在关键功能，理解复杂输入，进行推理和规划，可靠的使用工具等方面日趋成熟，agent通过人类用户的命令或与人类用户的互动中开始工作，一旦任务确定，agenthi独立规划和操作，并可能返回人类手中以得到更多信息或判断。llm有时可以同时执行一项任务，并以编程方式汇总其输出，1.Sectioning，将任务分解为并行运行的独立子任务，2.Voting，多次运行相同的任务以获得不同的输出。

2025-03-08 22:19:04 108

原创 ChatDiT：a training-free baseline for task-agnostic free-form chatting with diffusion transformers

该系统将用户意图转为话语上下文工具包兼容的格式，并规划处理大规模图像集的生成策略，这涉及将自有形式的自然语言指令和参考图像翻译为结构化参数，制定逐步策略以确保输入和目标图像之间适当的关系，并执行这些步骤利用上下文工具包生成高质量的输出。Group transformer和In-Context Lora中引入的图像生成范式，其中图像生成任务被设定为生成一组n>=1的目标图像，以另一组m>=0的参考图像为条件，并附加一个全面的提示，描述n+m图像的组合。从自然语言提示中生成高保真且风格多样的图像。

2025-02-26 11:17:04 81

原创 Step-video-T2V Technical report:The Practice,challenges,and future of video foundation model

人类反馈有效的提高了视觉质量，建议使用人工标注的反馈数据训练一个奖励模型，该奖励模型在训练过程中动态评估新生成样本的质量，奖励模型定期通过新的人工反馈进行微调，以保持与发展的策略的一致性。30B，DIT，Flow Matching，544x992，204帧，一个特殊设计的VAE实现了16x16空间和8x的时间的压缩比，两个双语文本编码器，使得step-video可以理解中文或者英文提示，引入一种级联的训练pipeline，包括文本到图像的预训练，文本到视频的预训练，监督微调sft以及直接偏好优化dpo。

2025-02-24 20:37:07 251

原创 Logic-RL:Unleashing LLM Reasoning with Rule-Based Reinforcement learning

deepseek-r1引入了一种简单而有效的基于规则的强化学习，无需依赖传统的支撑技术，如蒙特卡洛书树搜索MCTS或者过程奖励模型PRM，便能出现新兴的推理模式。logic-rl，基于规则的强化学习框架，通过在逻辑难题上的训练来获得r1的推理模式，训练框架采用Reinforce++算法和deepseek-r1的奖励设计用于后训练。采用了REINFORCE++的一个修改版本作为我们的基线算法，显示出比GRPO更好的性能。奖励作为RL中的主要训练信号，指导优化过程，包括两种类型的奖励，格式奖励和答案奖励，

2025-02-24 19:24:10 173

原创 ace++:Instruction-based image creation and editing via context-aware content filling

对于不包含参考图像的任务，如可控生成、图像修复和单图像编辑，ACE的LCU在token序列维度上拼接输入，与t2i相比，在dit的注意力输入中引入了额外的条件序列，将这些任务的条件输入从序列连接更改为通道维度连接，可以有效的减少模型适配成本。在训练上，两个阶段，第一阶段，用t2i的0-ref任务的任务数据预训练模型，flux.1-fill-dev也是这个思路，第二阶段，微调上述模型，关注模型重建输入参考图像和生成目标图像的能力，以知道模型学习上下文感知信息。

2025-02-24 17:32:04 90

原创 ace：all-round creator and editor following instructions via diffusion transformer

构建一个全能视觉生成模型的一大挑战在于多模态输入格式的多样性和支持任务的多样性，设计了一个统一框架，使用dit生成模型，以适应广泛的输入和任务，多轮绘图以及editor，1.分析了大多数视觉生成任务的条件输入，定义了条件单元condition unit，CU，该单元建立了一个统一的输入范式，包括图像掩码以及文本指令等核心元素。，考虑一个包含M个CU的LCU，模型为每个CU涉及三个入口点，一个语言模型T5，一个VAE将参考图像压缩为潜在表征，以及一个下次样模块将mask调整为相应潜在图像的形状。

2025-02-24 16:48:53 209

原创 Deepseek-r1:Incentivizing reasoning capability in llms via reinforcement learning

我们的目标是讨论LLM在没有任何监督数据的情况下，发展推理能力的潜力，专注于RL。自我演化中最显著的方面之一就是随着测试时间计算的增加而出现的复杂行为，例如，反思-模型重新审视并重新评估先前步骤的行为-探索解决问题的替代方法，这些并非显式编程的结果，而是模型与强化学习环境互动的结果。Deepseek-r1-zero是通过rl训练的，没有经过sft，通过rl涌现了许多强大而有趣的推理行为，但是有可读性差和语言混合等挑战，deepseek-r1结合了多阶段训练和冷启动数据。蒸馏的模型比直接rl效果好。

2025-02-21 09:58:04 85

原创深度推理模型的测评

1.科大讯飞X14.GLM-Zero。

2025-02-08 10:10:29 148

原创深度推理COT常用测评数据集

数学与推理：AIME、Math-500、LogiQA等。知识广度编程能力生成质量多语言与伦理部分数据集（如AIME 2024、MATH500）已被用于直接对比DeepSeek-R1和O1的性能。此外，李飞飞团队近期提出的s1K数据集（1000个数学问题）展示了通过小规模高质量数据微调实现高效推理的可能性。

2025-02-08 09:45:19 474

imagemagick.zip

图像篡改检测.zip

空空如也