自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

liguandong

github:https://github.com/leeguandong

  • 博客(1007)
  • 资源 (2)
  • 收藏
  • 关注

原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!

learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。

2023-12-03 15:08:05 467

原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!

3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1570

原创 Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing

FIRM引入了量身定制的数据管道,以合成高质量的奖励数据。构建了高质量的奖励数据集:FIRM-Edit-370k和FIRM-Gen-293K,以及相应的模型,FIRM-Edit-8B和FIRM-Gen-8B,这些模型是从Qwen3-VL-8B-Instruct模型初始化的,还构建了一个人类标准的基准FIRM-Bench。多模态大语言模型在作为zero-shot奖励模型用于精细图像编辑和生成任务时会遇到困难,这些模型固有的存在严重的幻觉,物体忽视和缺乏精确的空间推理的问题,导致不合理和噪杂的奖励得分。

2026-03-19 14:03:37 79

原创 Edit-R1: Reinforce Image Editing with Diffusion Negative-Aware Finetuning and MLLM Implicit Feedback

策略优化,rl的成功还依赖于高质量的奖励信号,大型语言模型非常适合图像编辑中所需的主观评估,提供与人类意图一致的评估,现有的mllm评分方法可以分为基于logit的方法,该方法使用标记分布统计进行可解释性,以及基于采用的方法,该方法从生成的输出中提取分数。监督微调的固有范式,sft目标往往使学习走捷径,导致模型忽视复杂的指令,仅仅恢复输入的内容,此外,其对大规模但多样性不足的数据集的依赖使得模型容易过拟合,损害了它们在不同任务上的指令保真度,使模型与人类意图对齐,基于rl的训练后对齐是一个方向。

2026-03-19 11:02:17 197

原创 SkyReels-Text:Fine-grained Font-Controllable Text Editing for Poster Design

fluxtext这样的模型将显式的视觉先验(例如渲染的文本内容,位置掩码)注入到强大的DiT主干中,他们缺乏接受用户提供的由visual patch提取的任意字体风格的机制,无法提供对输出排版的精细控制,无法保证编辑后的文本将准确模仿给定参考的字体风格。专业工作流中一个关键要求是能够快速修改文本内容,同时保持原始的视觉和谐,排版身份和美学意图,这不仅要求精准的字符展示,还需要对字体家族和风格细微差别的精细控制,尤其是在处理像手写文本这样复杂的文字。合成数据很多问题,从设计平台和公共资源库收集了真实的海报,

2026-03-18 18:24:01 226

原创 FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing

利用了AnyWord-3M数据集,多语言数据集,整合了多个数据,包括wukong(中文),Laion(英文),以及一些专门为ocr设计的数据,包括丰富的文本场景,例如城市风景、书籍封面、广告海报和电影画面,该数据集大概有3M图像,其中语言分布约为1.6M张包含中文文本,1.39M中包含英文文本,以及额外的10K张展示其他语言的文本,为了训练fluxtext,我们从AnyWord-3M中提取了一个小型数据集,包含100K图像,其中50K中文,50K英文。分别针对中英文的效果做了定制。

2026-03-18 16:41:07 534

原创 OmniText: A Training-Free Generalist for Controllable Text-Image Manipulation

OmniText 是一个的通用视觉文本操作框架,它通过在扩散模型推理阶段(实现无幻觉的文本擦除)并结合(动态计算 Loss 更新潜变量以精准控制内容与风格),在零微调成本下统一了图像文本的擦除、编辑与风格迁移等多项复杂任务。

2026-03-09 19:44:59 565

原创 ProEdit: Inversion-based Editing From Prompts Done Right

ProEdit的核心贡献在于它发现了 AI 编辑**“改不动”是因为“记性太好(过度保留原图信息)”**,并用一套巧妙的方法让 AI 在该改的地方“失忆”(接受新指令),在不该改的地方“记忆犹新”(保留背景)。ProEdit(arXiv:2512.22118) 针对的是基于模型(如 FLUX.1, HunyuanVideo, Stable Diffusion 3 等采用 MM-DiT 架构的模型)在源图像信息过度注入 (Excessive Source Information Injection)。

2026-03-09 10:09:23 574

原创 ConsistEdit Attention Injection 机制详解

通过在去噪过程中动态替换目标图像的注意力 Q/K/V,使其在非编辑区域"继承"源图像的注意力模式,从而实现精确的区域控制和内容保留。

2026-03-05 19:48:57 411

原创 ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

针对 MM-DiT 架构定制的、基于 Vision Token 分离的 Q/K/V 解耦控制算法。它摒弃了以前模糊的 Attention Map 替换,转而通过直接操纵 Self-Attention 的输入矩阵,利用QKQ/KQK锁死几何结构,VVV控制语义渲染,实现了对生成过程的精确 surgical(手术级)干预。这可能是目前 DiT 架构下做 Video-to-Video 或 Image Editing 最稳健的 Training-free 基线之一。

2026-03-05 19:46:16 422

原创 UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Edit

这篇论文的工程落地价值很高。它证明了在统一自回归/Flow-Matching架构下,不必为了 T2I 和 Editing 维护两套复杂的控制逻辑。只要通过高质量的 Agent 合成数据流,将 Editing 作为 T2I 的 Post-generation Refinement step 融入马尔可夫链中,并通过 LLM/VLM 注入世界知识先验,就能大幅拔高模型在复杂长尾 Case 下的生成逼真度与逻辑正确性。

2026-03-02 11:34:37 626

原创 UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

UniWorld-V1 是一篇极具启发性的工作。它证明了在统一视觉生成框架中,高分辨率的对比学习语义特征(SigLIP)比基于重建的局部特征(VAE)能提供更好的泛化指导。结合高效的二阶段训练范式和精巧的 Mask-aware Loss Weighting,用极低的数据成本(2.7M)实现了跨感知、理解、生成的 SOTA 级端到端多模态大模型。模型权重、代码和清洗后的数据集已全部开源。

2026-02-26 20:45:51 594

原创 EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

针对开源指令引导图像编辑(Instruction-Guided Image Editing)缺乏高质量对齐数据和可靠评估指标的问题,论文提出了EditReward。这是一个基于 VLM 的人类偏好奖励模型(Reward Model, RM)。该工作的核心贡献在于构建了大规模、解耦维度的偏好数据集(200k+ pairs),并设计了一种**不确定性感知(Uncertainty-Aware)**的排序损失函数,以及针对“平局(Tie)”样本的特殊数据增强策略。

2026-02-12 17:43:40 715

原创 Group Relative Attention Guidance for Image Editing

Transformer 架构在图像生成任务中,Embedding 空间存在严重的“各向异性”或 Bias 主导现象。相比于在输出端(Logits/Noise)做干预,深入到 Attention 内部对 Key/Query 的分布做白化(Whitening)或重缩放,能获得更本质的语义控制能力。这是一个完全 Training-free 的 Trick,非常适合集成到现有的基于 Flux 或 SD3 的编辑管线中,作为用户调节“编辑强度”的高级参数。

2026-02-12 11:23:49 620

原创 TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

其他方法(如 GAN)是找个考官站在靶子旁边喊:“打歪了!这是假的!”(只给是非反馈,不告诉怎么改)。我先瞎打一枪(得到xfakex_{fake}xfake​我分析一下子弹是怎么飞到xfakex_{fake}xfake​的(通过t0t<0t0的训练)。我计算出真靶心xrealx_{real}xreal​和 假弹孔xfakex_{fake}xfake​之间的矢量差。我直接修改我的枪管(模型参数),把这个矢量差抵消掉。

2026-01-15 11:59:56 320

原创 DMD 分布式蒸馏 / Self-Forcing

DMD 的核心目标是训练一个单步生成器(One-step Generator)GθG_\thetaGθ​,使其生成的图像分布pθp_\thetapθ​尽可能逼近原始扩散模型(Teacher)所代表的真实数据分布prealp_{real}preal​。从数学上讲,DMD 旨在最小化两个分布之间的KL 散度(Kullback-Leibler Divergence)min⁡θDKLpθ∣∣prealθmin​DKL​pθ​。

2026-01-14 15:32:14 271

原创 claude Skill

如果你是模型底层开发者:你关注Tool Use,优化模型调用的准确率。如果你是产品经理或业务开发者:你构建的是Skill,通过组合工具来解决业务问题。最重要的是,如果你希望你的 AI能连接万物(本地文件、数据库、Slack、GitHub),你现在必须关注MCP。结论Claude 分析项目时,Tool Use是它的手,Skill是它脑子里的工作流程,而MCP是它连接你项目代码(文件系统/GitHub)的那根通用数据线。Claude 最近推出的(以及配套的标准),赋予了 Skill 完全不同的含义。

2026-01-14 10:58:28 324

原创 Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

6B 的 Dense 模型配合高效的架构(Single-Stream)和极高质量的数据,完全可以打败 20B+ 的模型。论文花了大量篇幅讲 Data Profiling 和 Active Learning。这再次印证了在预训练阶段,清洗数据的 Pipeline 价值高于模型调优。DPO, GRPO, RoPE, Chain-of-Thought (在 Caption 生成中用到) 这些 LLM 里的标配技术,正在全面接管 CV 生成领域。

2026-01-12 17:48:43 251 1

原创 Qwen3-VL Technical Report

为了解决这个问题,Qwen3-VL 不再按块切分,而是采用**交错(Interleave)**的方式分配维度。这不仅仅是简单的“把图变成 Token”,而是一套为了极致压缩 Token 数量同时保留高频细节的工程化方案。这是 Qwen3-VL 最硬核的部分,它复现了 OpenAI o1 的路线,但在多模态领域。(需要低频的时间定位),模型都能在 Embedding 空间中找到对应的频段来承载这些信息。最后,所有的 Visual Tokens 进入 LLM 时,会被加上我们在上一轮讨论过的。

2026-01-12 00:28:53 180

原创 Wan2.1/I2V模式

Scaling Law 的胜利:Transformer (DiT) 架构允许参数量和数据量暴力堆叠,上限远高于 3D U-Net。:提供了比 Diffusion 更优的数学收敛路径,解决了视频生成中“画面糊”和“运动不连贯”的问题。:解决了长视频的时空一致性问题(不会出现人物走着走着换了张脸)。数据工程:阿里的数据清洗能力(尤其是视频-文本对齐)起到了决定性作用。如果你要复现或研究,建议重点关注3D VAE 的 temporal compression 策略以及。

2026-01-11 16:27:34 168

原创 DeepSeekV3/R1

是这个科学家的**“原生大脑与身体”**。它天资聪颖(MoE架构),记忆力好且反应快(MLA),基础知识极其扎实(海量数据预训练)。如果你问它“西红柿炒蛋怎么做”,它不需要深思熟虑,直接调动“常识区”就能回答。是这个科学家经过**“魔鬼特训”**后的状态。通过GRPO,它学会了遇到难题先拿草稿纸演算(<think>标签)。它学会了如果做不出结果,就换一种思路,或者检查上一步(自我纠错)。最关键的是:R1 的权重其实是基于 V3 的。换句话说,R1 = V3 + 思维链训练(SFT+GRPO)。

2026-01-09 14:30:26 116

原创 GRPO解释

PPO 是。

2026-01-09 14:19:18 57

原创 MOE解释

特性Standard MoE (如 Mixtral)Qwen-MoE专家总数少 (例如 8个)极多(例如 64/128/256个)多 (例如 60个)激活数量Top-2Top-K (例如 6或8)Top-4核心创新基础 Top-K 路由共享专家 (Shared Experts)细粒度 + Dense 模型热启动优势实现简单,推理快知识界限更清晰,通用能力强训练成本极低,从 Dense 快速转换。

2026-01-09 00:30:00 65

原创 DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

DiT 确实是视频生成的未来别死磕 U-Net 了。处理视频这种长序列、多条件的任务,DiT(Transformer)的 Attention 机制在时序一致性和 Condition 注入上,比 3D-Conv 或 Temporal-Attention 的 U-Net 更加优雅且上限更高。数据不够,合成来凑(且要闭环)在没有 Paired Data(成对数据)的场景下,不要只指望非监督学习。利用现有的 SOTA 单图模型构造“高质量伪数据”,先让模型把流程跑通。

2026-01-08 15:16:42 105

原创 DreamID

别只盯着模型结构,的数据构造才是让模型学会“换脸”而不是“拼脸”的关键。利用现有的 GAN (如 FaceDancer, SimSwap) 去离线生成伪 Target,构建 <Source, Pseudo-Target, GT> 数据对。传统的 Latent Diffusion 训练很难加 Image-Level Loss。使用 Turbo 类模型作为 Base,可以将训练退化为类似 GAN 的 Generator 训练模式,从而引入强监督信号。

2026-01-08 10:56:57 63

原创 claude使用总结

4. 重要功能完成后打tag - git tag -a v1.0 -m "版本说明"git reset --hard <commit-id> # 回退到指定版本。3. 经常性的做小commit - 不要积累太多修改才commit。# 丢弃工作区所有未提交的修改(回到最后一次commit的状态)git log --oneline # 简洁查看提交历史。# 回退到上一个commit(丢弃当前所有未提交的修改)git commit -m "描述你做的修改"git checkout -- <文件名>

2026-01-08 09:47:49 598

原创 EditThinker: Unlocking Iterative Reasoning for Any Image Editor

EditThinker 就是一个拥有“反思能力”的 AI 大脑。它让 AI 修图不再是碰运气,而是像人类设计师一样,通过“观察结果 -> 发现问题 -> 调整指令 -> 重新尝试”的迭代过程,最终交出完美的作品。将图像编辑任务从单纯的“生成问题”重构为“推理+规划问题”。EditThinker 实际上是实现了一个针对 Image Editing 的 Agent。数据层面:它证明了包含“错误-修正”过程的 Trajectory 数据比单纯的 (Instruction, Image) 对更有价值。模型层面。

2026-01-07 17:43:29 80

原创 Group-Relative Attention Guidance for Image Editing

它把图像信号拆解开来,让你能单独控制“整体结构”和“编辑细节”的权重,从而实现指哪打哪、想改多少改多少的精准修图体验。最厉害的是,它代码极少(只要4行),无需训练,是一个性价比极高的技术改进。这篇论文本质上是在Attention机制的特征空间内做了一次“信号解耦与重加权”。我们可以把 GRAG(Group Relative Attention Guidance)理解为一种基于统计特性的 Attention Logit 缩放(Logit Scaling)策略。作为算法工程师,你可以把GRAG看作是一个。

2026-01-06 19:43:10 455

原创 Kling-Omni Technical Report

作为算法工程师,你能看到 Kling-Omni 并不是在算法原理上发明了全新的数学公式,而是极其扎实的 Engineering Alignment (工程对齐)彻底打通图/文/视 Token,消除了模态隔阂。构造了复杂的 Interleaved 数据来教模型“推理”和“编辑”。从 DPO 的选择到 Elastic Ulysses 并行,全是针对“视频生成算力太贵”这个痛点的精准手术。它不仅仅是一个生成模型,更像是一个具备物理常识的、高效的视觉渲染引擎。

2026-01-06 17:28:05 74

原创 Flow Matching / Diffusion model

流”就是沙子移动的轨迹。在这个过程中,每一粒沙子(数据点)都需要从混乱的状态移动到图像中正确的位置。随着时间的推移,所有沙子的整体移动看起来就像水流一样,这就是“Flow”。Diffusion: Target 是noise(随机变量)。: Target 是(从噪声指向原图的向量)。看似只是减法的对象变了,但实际上这把生成过程从“去噪概率模型”变成了“确定性流体动力学模型”,这也是为什么现在 SD3 和 Sora 效果更好、生成更快的数学根基。要理解为什么Flow Matching(流匹配)是比。

2026-01-05 19:44:51 374

原创 Uniworldv2

本质上是一个基于 Flow Matching 的 On-policy RL 框架。它抛弃了昂贵的 SFT 数据标注,转而利用 MLLM 的 Logits 作为稠密奖励信号,配合负样本感知的速度场微调(DiffusionNFT),并辅以方差过滤策略来保证训练稳定性。在多模态生成领域,SFT 只是“预训练”,真正的能力对齐(Alignment)和泛化,还得靠高质量的 Reward Model + 强化学习。而且,利用 MLLM 的 Logits 作为 Reward 是一个非常值得借鉴的低成本方案。

2026-01-05 14:53:31 66

原创 Flow-GRPO

它证明了 GRPO 这种不需要 Value Network 的轻量级 RL 方法是通用的。通过 ODE-to-SDE 的等价转换,给出了一个数学上优雅、工程上高效的解决方案。Denoising Reduction 告诉我们,RL 训练不需要高清图,只要“结构对”就行。这为未来的视频生成模型(Video Gen)RL 训练铺平了道路(视频生成太慢了,必须减少步数才能训练)。如果你想优化业务中的文生图/文生视频模型,让它更听话(听从复杂指令),不要再去折腾 SFT 数据了,

2026-01-05 14:23:40 60

原创 ROPE的通俗解释

像给每个词发个死板的座位号。像让每个词根据位置跳个旋转舞。它就是一个极其精准的**“空间+时间”定位器**。它确保了眼睛长在鼻子上(空间一致性),确保了这一秒的你和下一秒的你是同一个人(时间连贯性)。既然老板想要“去比喻化”、结合具体算法机制的解释,那我们就扔掉风筝和检票员,直接看 RoPE(Rotary Positional Embedding)在数学和代码逻辑层面是如何运作的,以及它如何在 2D 和 3D 数据中实施。维度输入坐标。

2026-01-05 13:59:06 125

原创 统一的多模态内容理解与生成

如果我们要选型,该怎么选?维度Janus-Pro (解耦 AR)Seed-X (字节/混合扩散)Chameleon (原生 AR)Show-o (混合掩码)核心优势指令遵循 (SOTA)、理解能力强、训练极稳画质 (SOTA)、支持图像编辑真正的原生多模态交互推理速度快、并行生成生成质量中等 (受限于 VQ 码本, 384分辨率)极高(Diffusion 渲染)中等 (VQ 伪影)中等偏上指令对齐极强(LLM 直接控制 Pixel ID)强 (LLM→\to→Embedding→。

2026-01-05 11:59:30 357

原创 Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

Janus-Pro 是一篇工程扎实的论文。坚定的解耦架构精细的数据清洗与合成数据策略训练 Pipeline 的剪枝准确地说,Janus-Pro 使用了一个用于理解,和一个用于生成。在论文的和中,作者详细阐述了这一机制。这种设计本质上是将“感(Perception)”与“动(Action)”在特征层面完全剥离,只在 LLM 层面进行对齐。以下是它们在训练 (Training)和推理 (Inference)理解侧 (Understanding Encoder):模型输出。

2026-01-05 11:42:06 45

原创 Unified Reward Model for Multimodal Understanding and Generation

由于 Wan2.1 也是基于 Transformer 的 Latent Diffusion,我们可以复用大部分逻辑。这里提供一个。

2026-01-05 09:37:32 67

原创 USP: A Unified Sequence Parallelism Approach for Long Context Generative AI

拓扑感知(Topology Awareness):它承认了 GPU 集群中“节点内”和“节点间”带宽不对等的物理现实,用混合算法适配了物理拓扑。打破模型架构约束:它通过引入 Ring 维度,让我们可以训练那些 Heads 数很少(为了推理优化)但序列极长(为了效果炸裂)的新一代模型——这恰恰是长视频生成最需要的特性。

2026-01-04 18:19:12 71

原创 LongCat-Image Technical Report

证明了6B 参数 + 极致的数据清洗 + 强化学习对齐是一条比单纯堆参数更高效的路径。彻底解决了 AI 绘画“不识汉字”的顽疾,对于国内电商、设计行业是巨大的利好。论文承诺开源从 Pre-train 到 RLHF 的全链路代码和中间权重。这意味着社区不仅能用它,还能复刻它的训练过程,这对学术界和开源社区贡献极大。LongCat-Image 是目前也是未来一段时间内,最懂中文、最适合商业落地、且工程细节披露最详尽的开源图像生成模型之一。

2026-01-04 14:43:30 100

原创 LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation

决策时机FBCache:代码写代码时就定死了(Compile time/Fixed logic)。TeaCache:运行时边跑边算(Runtime/On-the-fly)。是它的核心。LeMiCa:运行前预处理(Pre-process)。是它的核心。开销来源TeaCache:虽然计算diff很快,但每一步都要算。而且如果阈值设得不好,可能会在该算的时候不算,不该算的时候狂算。LeMiCa:开销集中在最开始的那几毫秒 DP 计算。进入循环后,判断逻辑是O1O(1)O1的(仅仅是读取。

2026-01-04 11:13:10 46

原创 OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

图 1: OneIG-Bench 概述。OneIG-Bench 包含六个核心类别,每个类别都旨在评估不同生成维度上的目标能力,每个类别包含约 200 个精心策划的提示,以确保全面覆盖各种场景。

2026-01-04 10:42:48 50

imagemagick.zip

imagemagick的pdf教程以及中文翻译版本

2022-01-18

图像篡改检测.zip

图像篡改ppt。

2019-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除