- 博客(966)
- 资源 (2)
- 收藏
- 关注
原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!
learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。
2023-12-03 15:08:05
432
原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!
3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。
2023-12-02 12:17:55
1544
原创 RepText: Rendering Visual Text via Replicating
为了满足特定语言的文本渲染需求,一些研究采用专用文本编码器或多语言大型语言模型来替代现有的单语言编码器,并从头开始重新训练模型,以增强基础模型的原生渲染能力,但这些方法不可避免地会造成资源消耗过高的问题。为了解决这些局限性,我们首先提出一个简单的假设:文本理解只是文本渲染的充分条件,而非必要条件。具体而言,我们采用了 ControlNet 的设置,并额外集成了与语言无关的字形和渲染文本的位置,从而能够生成协调一致的视觉文本,允许用户根据需要自定义文本内容、字体和位置。] 和 JoyTypes [
2025-12-31 12:00:37
17
原创 AnyText2: Visual Text Generation and Editing With Customizable Attributes
第一种方法将每个字符的视觉外观编码为嵌入,并将其与图像描述相结合,例如 TextDiffuser-2、Glyph-SDXL 和 Glyph-SDXL-v2 等方法。该架构在执行文本图像融合之前将文本渲染与图像生成解耦,从而形成了一种简化的方法,在显著提高推理速度的同时,也提高了图像的真实感。我们提出了一种新方法,该方法从自然场景图像中提取文本属性标签,并引入一个文本嵌入模块,将每个属性编码为单独的条件。更重要的是,我们的方法可以生成适用于开放域场景的叠加文本和嵌入式文本。
2025-12-31 11:40:54
9
原创 AnyText: Multilingual Visual Text Generation and EditingAnyText
AnyText ,一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确且连贯的文本。后者采用 OCR 模型将笔画数据编码为嵌入,并与来自分词器的图像描述嵌入融合,从而生成与背景无缝衔接的文本。我们在训练过程中采用了文本控制扩散损失和文本感知损失,以进一步提高书写准确性。AnyText 能够以多种语言书写字符,据我们所知,这是首个致力于多语言可视化文本生成的项目。值得一提的是,AnyText 可以集成到现有的扩散模型中,从而实现文本的精确渲染或编辑。
2025-12-31 11:02:30
10
原创 FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for SceneText Editing
这些线索大致可以分为两类:(1)视觉嵌入,如TextDiffuser-2和AnyText2[35],编码文本的视觉外观或位置布局,并将其与背景信息融合成嵌入向量,指导模型生成目标文本;尽管这些方法有效,但它们仍然存在两个主要限制。其次,它们的基于UNet的主干本质上比更先进的DiT[24]架构在模拟复杂视觉上下文方面能力较弱,导致图像质量较差和文本编辑性能不理想。得益于基于DiT的架构和轻量级特征注入模块,FLUX-文本仅需0.1百万个训练样本即可进行训练,与流行方法所需的290万个样本相比减少了97%。
2025-12-31 10:40:21
7
原创 图片生成文生图测评数据集
利用物体检测器(Object Detectors)来扫描生成的图片,硬核地计算图片里是不是真的有Prompt里提到的所有东西,以及数量、位置是否正确。相比于模糊的“美感”评分,它更看重“精准度”。OneIG 将评测拆分为 6 个具体的子任务,共包含约 1000+ 个精心设计的高难度提示词(Prompts),涵盖中英双语。它的设计初衷是为了解决早期评测基准(如仅依赖 CLIP Score 或 FID)维度单一、不够细致的问题。测试模型在面对极长、极复杂的Prompt时,是否会发生“灾难性遗忘”或忽略细节。
2025-12-15 15:29:11
43
原创 USP-Ulysses+Ring-Attention技术原理
https://github.com/modelscope/modelscope-classroom/blob/main/Blogs/Articles/Ulysses_Ring_Attention/report.mdhttps://github.com/modelscope/modelscope-classroom/blob/main/Blogs/Articles/Ulysses_Ring_Attention/report.md
2025-11-11 21:17:42
94
原创 多卡并行推理方案
序列并行设计奖模型中未由张量并行处理的部分的激活和计算进行分割,例如dropout和laternorm,但沿着输入维度而不是隐藏维度进行分割,sp并行有点过于泛滥了,当序列变长时,注意力计算将成为瓶颈,这时就需要像Ring attention这样的技术,这些有时也被成为序列并行,但是我们将其成为context并行,因此此处的序列并行实际上和我们理解的ring和ulyssess是有区别的。在这个注意力机制的实现中,每个 GPU 首先发起一个异步通信操作,将它的键/值对发送给其他 GPU。
2025-10-28 15:58:02
111
原创 OneReward:Unified mask-guided image generation via multi-task human preference learning
https://zhuanlan.zhihu.com/p/1946587637398869091https://zhuanlan.zhihu.com/p/1946587637398869091
2025-10-25 16:22:08
70
原创 EasyControl:Adding Efficient and flexible control for diffusion transformer
早期的unet架构的方法通过冻结预训练参数并引入额外的适配器或encoder结构实现预训练模型的灵活扩展,DiT架构标志该领域往基于token的方法过渡,这些方法通过vae编码器将条件图像转换为token序列,将其与噪声潜在表示连接,并对模型进行微调,以实现条件引导生成。2.存在多条件协同控制挑战,现有方法难以在但条件训练范式下实现多条件指导下的稳定协调,潜在空间中不同条件信号的表征冲突导致生成质量下降,特别是在零样本多条件组合场景中,模型缺乏有效的跨条件交互机制;3.模型适应性存在局限性。
2025-10-07 14:22:09
119
原创 UMO:Scaling multi-identity consistency for image customization via matching reward
在这项研究中,我们认为现有的一对一映射范式无法全面解决同一身份内差异和不同身份间区分的问题,导致随着身份数量的增加,身份混淆加剧,身份相似度降低,一方面,同一身份内差异指的是单个身份内部的固有变化,同一一个个体在参考图像和生成输出输出之间可能呈现不同的属性(例如姿态、表情等),另一方面,不同身份内区分强调了在生成过程中不仅要准确捕捉目标身份的独特特征,还要明确抑制与其他身份相关的特征,从而确保清晰分离,并在多身份场景中最大限度的减少身份混淆。
2025-10-06 22:48:38
89
原创 OminiConsistency:Learning style-agnostic consistency from paired stylization data
第一阶段,我们在特定风格数据上独立训练lora模型以构建lora bank,第二阶段,我们将预训练的风格lora模块附加到扩散transformer主干中,并使用相应的图像对(原始图像和风格化图像训练)一致性模块,第二阶段训练明确针对结构和语义一致性,防止一致性模块吸收任何特定风格特征,为确保风格无关能力,在训练迭代过程中定期切换lora模块以及其对应的数据子集,确保在不同风格下的一致性性能稳定。2.I2I设置中的风格退化,lora和ipadapter在图像到图像生成中的风格保真度通常低于文本到图像生成;
2025-09-30 17:58:26
137
原创 nano-banana技术分享
2.理解和生成共生,视觉信号时通往世界知识的捷径;5.图像生成领域,视觉质量很重要,但是有一个全新的方向,希望通过统一的全模态实现的,那就是智能性,当我让模型做一件事,它并没有完全遵循我的指令,但最总生成的结果却要比我最初的描述还要好,这是一种独特的,超越期待的能力,根本原因在于,有时候用户给出的指令可能不够具体,甚至用户对自己对某些显示情况的认知也存在偏差,然后gemini所拥有的知识体系,让它眼中的外部世界与个人视角有所不同,所以这种超越并非刻意为之,而是基于其更优视角而自然涌现的结果。
2025-09-24 10:04:38
156
原创 Flow-GRPO: Training Flow Matching Models via Online RL
90%的人低估了TRPO算法在强化学习历史的地位。就是将扩散模型和flow matching并没有本质的区别,扩散模型只是flow matching的一个子集,flow matching是一种更广形式,扩散和flow matching的正向都可以视为马尔科夫过程,其区别在于反向去噪,扩散是离散的ddpm过程,是概率流的ODE或者SDE,而flow matching的去噪更加高效,其采用了直接匹配速度场这种概率,仅需几步就可完成采样,核心区别就在于去噪的采样过程,flow matching在理论上更加高效。
2025-09-08 15:19:08
248
原创 flow matching
目前大部分基于flow matching的文章都还是强调自己是diffusion模型,在源分布是高斯分布的情况下最朴素的flow matching可以视为特定noise scheduler下的diffusion。同时与一般的noise scheduler下的diffusion不同,它学习的路径是从纯高斯为起点,一般的diffusion采样的起点虽然是纯高斯,但是对应训练的时候并不是纯高斯,而是目标分布尺度上进行一个相当大的缩放再卷上高斯,虽然这个缩放相当大,但是并不归到零,这两者之间存在分布不对齐。
2025-09-08 13:58:37
133
原创 VACE:All-in-One Video Creation and Editing
Vace在构建过程中考虑了不同任务的需求,并设计了一个统一的接口,称为视频条件单元,该单元整合了多种模态,为了区分编辑和参考任务中的视觉模态信息,我们引入了解耦策略,使模型能够理解需要保留哪些方面以及需要修改哪些方面,同时,通过采用可插拔的上下文适配器结构,不同任务的概念通过协同时空表征注入到模型中,使其具备适应性处理统一任务的能力。我觉得还是比较好理解的,也就说对四个任务,输入都被统一为文本输入,帧序列和mask输入,其中帧序列是RGB的,mask是0/1的,是二进制的,两者是对齐的。
2025-09-08 11:48:11
102
原创 USO:Unified style and subject-driven generation via disentangeled and reward learning
USO训练和构建跨任务三元组的方法,之前的方法探索的三元组保留了原始布局,无法对主体进行姿态或空间重新排列,200k对风格化图像,并增加了合成数据,两个模型,一个是增加风格的,一个去除风格的,风格一致性是保留布局的,主题一致性是保留主题的,但不保留布局。风格驱动生成只需要参考图像中的风格特征,而其他特征则构成噪声,因此,在这些任务中,一个基本且长期存在的挑战是在同时排除其他噪声特征的情况下,准确包含所有的所需的参考图像特征,例如,在风格驱动生成中仅生成包含风格,或在主题驱动生成中仅包含主题外观。
2025-09-05 18:07:44
77
原创 SAM 2: Segment Anything in Images and Videos
论文笔记 SAM 2 Segment Anything in Images and Videos - Kamino's BlogMeta出的SAM的续作,旨在对图像和视频进行Promptable Visual Segmantation(PVS),文章贡献了数据和模型,相较于SAM,SAM2可以对视频进行分割,且提升了图像上的分割速度。旨在对图像和视频进行Promptable Visual Segmantation PVS,SAM2新增了视频的分割。
2025-09-03 10:45:36
1199
原创 GRPO:Group Relative Policy Optimization
不管你是AI新手,还是想深入强化学习,这个视频都能让你快速入门!,相关视频:【TRPO算法】强化学习一头撞死:学过ppo,grpo,dpo,dapo,没听过这是啥?,PPO的直观解释(没有公式,[veRL] 从原理层面理解训练参数,PPO & GRPO,batch size,kl & entropy,为啥杨立昆不看好强化学习?在本期视频中,我们深入探讨了 DeepSeek GRPO的核心原理,并结合代码实现,带你一步步理解这一强化学习算法的精髓。从原理到代码,带你掌握DeepSeek GRPO!
2025-08-31 00:08:35
279
原创 Trust Region Policy Optimization
商务:gengzhige99,相关视频:零基础学习强化学习算法:ppo,PPO的直观解释(没有公式,我竟然半天就学会了强化学习(PPO、Q-learning、DQN、A3C)算法原理及实战玩转超级马里奥,DPO (Direct Preference Optimization) 算法讲解,代码实现大模型强化学习(PPO),看这个视频就够了。,别“扩”了,我直接“流”了,Flow Matching太狠了,王兴兴果然是搞科研的,面对美女主持都能面不改色介绍他的机器狗。_哔哩哔哩_bilibili。
2025-08-21 10:41:19
186
原创 DPO,PPO,GRPO
【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导_哔哩哔哩_bilibili这期视频分享我这段时间对强化学习的理解如果视频对大家有帮助,还请点赞、投币、转发(这对鼓励up主真的很重要)如果大家对视频中有任何疑问,欢迎私信或评论区留言讨论~, 视频播放量 48786、弹幕量 90、点赞数 1882、投硬币枚数 1702、收藏人数 3685、转发人数 382, 视频作者 吃花椒的麦, 作者简介 这个人懒得写,相关视频:零基础学习强化学习算法:ppo,什么是 Q Learning (Reinfo
2025-08-20 23:27:22
142
原创 GSPO:Towards scalable reinforcement learning for language models
实录精选|通义千问研究员郑楚杰博士:GSPO算法解析与问答。
2025-08-20 15:12:25
148
原创 图片生成的lora训练框架
其实总体来看modelscope的diffsynth-studio确实是不错的训练框架,并且支持还比较及时,但和从diffusers的适配来讲,似乎又不是很友好,随意diffusion-pipe和musubi-tuner都是很好的方案;感觉作者也不怎么更新了,连带着lora_scripts也不怎么更新了,这个框架是我训练sd和flux最常用的lora训练框架了。3.Diffynth-studio支持速度特别快。2.diffusers的官方训练代码。
2025-08-13 15:34:13
4334
原创 Qwen-Image Technical report
这里的3D VAE复用Wan 2.1 VAE,模型大小为127M,空间下采样8x,时序下采样4x,latent特征维度为16,比如对于输入为1024x1024的图像,VAE编码的latent特征维度16x128x128。另外,为了提升VAE的重建精度,尤其是针对小字体文本和细粒度细节的还原能力,这里还基于内部构建的富含文本的图像数据集上对VAE decoder进行了微调,这里仅组合使用重建损失和感知损失。在传统的 MMDiT 模块中,文本 token 被直接拼接在展平后的图像位置嵌入之后(下图A)。
2025-08-07 11:50:11
141
原创 Flux.1 krea
从GAN到diffusion,图片生成已经取得了长足的进步,在处理人工智能图片是,一个明显的趋势是它们独有的外观,过于模糊的背景,蜡质的皮肤纹理,无聊的构图,这些构成了所谓的AI look。2.采用主观性的方法,现有的偏好数据集的不足,偏向简单对称的组合,模糊且过于柔和的纹理,崩溃的色彩搭配,充满AI look,在全局用户偏好上进行微调的模型并非最优,对于文本渲染,解剖结构,提示遵循等有客观真实标准的目标,数据多样性和规模是有帮助的,然而,对于审美等主观目标,混合不同的审美偏好几乎是相互矛盾的。
2025-08-07 10:48:46
447
原创 XVerse:Consistent Multi-subject control of identity and semantic attributes via dit modulation
当前最先进的方法多尝试利用dit中的注意力机制来注入参考图像的信息,但是这种直接注入或强烈依赖图像特征可能会对基础模型的生成质量产生重大影响,这通常会导致伪影,失真,属性纠缠,并可能损害生成图像的整体结构完整性和连贯性。DiT中注意力模块在其transformer层中同时处理文本和图像标记,这种注意力机制提供了一个通道,用于将控制信号(如来自控制图像的特征)注入到标记表示中,尽管通过注意力注入控制信号可以很好的视线相似性改进,但这种方法也可能导致模型的采样轨迹偏离,从而降低图像生成的质量。
2025-08-01 10:22:57
98
原创 DreamO:A unified framework for image customization
基于类型1的训练数据,我们通过Canny引导的通量[1],生成与自然图像相对应的风格图像来构建内容参考图像。更多细节在A.1中介绍。由于高质量的身份配对数据难以从网上收集,因此采用pulid生成,其在面部相似性和对齐方面表现的很好,具体来说,我们为pulid-sdxl提供了一个参考面部图像和一个描述期望风格的文本提示,这使得pulid-sdxl能够控制生成肖像的风格,从而形成参考面部,提示,风格化面部的训练对,对于照片级真实的场景,我们使用pulid-flux生成了两个同一身份的图片,这些图片互为参考。
2025-07-31 09:47:31
220
原创 视频生成模型蒸馏的方法
DiT通常在是有视频帧中使用双向注意力机制,双向依赖意味着生成单个帧需要处理整个视频,这引入了较长的延迟。文章浏览阅读343次。之前的扩散蒸馏大致可分为两类:1.知识蒸馏,其中学生模型被训练以模仿教师模型的去噪过程,但使用更少的推理步骤, 但起始数据点是通过正向扩散操作得到的,然而这些方法无意中蒸馏了无用的起始数据点,由于数据集不匹配或高斯噪声不匹配,这些数据点不位于教师模型的去噪轨迹上,当教师模型对这类无用的数据点进行去噪时,通常会产生不准确的结果,这可能导致在蒸馏过程中对学生模型提供不可靠的指导。
2025-07-30 15:19:09
201
原创 LightX2V
基于DMD蒸馏,lightx2v中的步数蒸馏是基于self-forcing技术,self-forcing的整体实现与DMD类似,仿照DMD2,去掉了自回归损失,使用了ODE初始化。目前支持flashattention2,flashattention3,sageattention2,radial attention,sparge attention。这样不仅能够高效地决定缓存复用的时机,还能最大程度地利用缓存内容,提升输出的准确性和生成质量。的方案,是目前综合性能最优的缓存加速算法之一。
2025-07-30 14:43:56
384
原创 Wan2.1
Wan Video API 是一个基于 FastAPI 的视频生成服务,提供图片到视频的转换功能。该服务支持从 OSS 下载图片,生成视频后上传至 OSS,并通过 MQ 发送完成消息。服务地址API 版本: v1基础路径/v1/api。
2025-07-29 22:49:02
2594
原创 Wan2.1+lora
Wan Video API 是一个基于 FastAPI 的视频生成服务,支持从图片生成视频,并提供 LoRA 模型增强功能。服务支持异步处理、队列管理、健康检查以及RocketMQ消息通知等功能。
2025-07-29 22:38:39
5415
原创 wanx文生图
wanx即可支持视频生成,也可支持图片生成,支持中文输入和中文输出,社区部分反馈吊打flux,但实测一般,也远远落后于即梦的seedream3.0,并且速度也很慢,主要还是效果不行,对于中文的一些概念理解也不太行;wanx支持文生图是很正常的,因为在wanx的每一阶段训练中都采用了图片和视频两类数据;
2025-07-29 22:24:32
3771
原创 sageattention2:Efficient Attention with Thorough Outlier Smoothing andPer-thread INT4 Quantization
sageattention提出将Q,K量化至int8,将P,V保持fp16精度且采用fp16的矩阵乘法累加器来加速attention的速度,然而,这样的缺点是:1.int8的矩阵乘法只达到了一半int矩阵乘法的速度,2.使用fp16精度的乘法累加器的fp16精度的矩阵乘法的加速只在rtx4090或者3090上有效;这种做法可以有效的避免FP22的乘法累加器沿着序列长度累积过多的误差,将FP22累加器带来的误差控制在FlashAttention分块的粒度中,提高了FP8的PV乘法的准确度。
2025-07-29 16:39:15
52
原创 Fast Video generation with sliding tile attention
在传统的滑动窗口注意力中,每个query关注以其为中心的局部窗口,导致不同的query关注不同的key group,缺乏共享的注意力key group是滑动窗口注意力中不规则现象的根本原因,形成了mixed blocks,我们提出了STA,专门在密集块和空白块上操作,STA将query和key组织成tile,同一个tile内的所有query关注它们共同局部窗口内的一组key,确保更加结构化的注意力模式。通过微调进一步将延迟降至268秒,并在VBench上的性能仅下降了0.09%。
2025-07-29 16:01:54
64
原创 大模型加速的几种attention总结
1.sageattention https://github.com/thu-ml/SageAttentionhttps://github.com/thu-ml/SageAttention2.sliding tile attentionhttps://github.com/hao-ai-lab/FastVideohttps://github.com/hao-ai-lab/FastVideo3.flash attentionhttps://github.com/Dao-AILab/flash-attentio
2025-07-29 14:58:49
90
原创 CausVid: From Slow Bidirectional to fast autoregressive video diffusion models
DiT通常在是有视频帧中使用双向注意力机制,双向依赖意味着生成单个帧需要处理整个视频,这引入了较长的延迟。CausVid设计了一种具有视频帧之间因果依赖的自回归扩散transformer架构,为了进一步提高速度,我们改变了分布匹配蒸馏DMD,这是一种最初为图像扩散模型设计的几步蒸馏方法,并将其应用到视频数据,提出了一种非对称蒸馏策略,将预训练的教师扩散模型中的双向注意力知识蒸馏到我们的因果学生模型中。CausVid:强烈推荐,超3倍极限视频加速!WanVACE仅需3-9步极视频生成和舞蹈Pose迁移加速。
2025-07-29 14:22:42
464
原创 accvideo:Accelerating video diffusion model with synthetic dataset
之前的扩散蒸馏大致可分为两类:1.知识蒸馏,其中学生模型被训练以模仿教师模型的去噪过程,但使用更少的推理步骤, 但起始数据点是通过正向扩散操作得到的,然而这些方法无意中蒸馏了无用的起始数据点,由于数据集不匹配或高斯噪声不匹配,这些数据点不位于教师模型的去噪轨迹上,当教师模型对这类无用的数据点进行去噪时,通常会产生不准确的结果,这可能导致在蒸馏过程中对学生模型提供不可靠的指导。扩散模型和flow matching已成为视频生成中广泛使用的框架,可以通过蒸馏技术加速视频生成仍是一个挑战。
2025-07-29 11:36:14
420
原创 大模型加速中的cache方法总结
后续我会把这些cache方法做一些集成,会着力打造一个并行推理的升级版本paraattention。目前的核心就是4090等消费级显卡的并行优化技术,这块我要深入的探索一下。
2025-07-23 16:47:14
3844
原创 SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
另外,为了将低模型的推理成本,将MMDiT的full attention改造成了window attention,这里的window attention和Swin Transformer一样,将3D的特征按照5x64x64的window大小拆分成很多window。这里和Swin Transformer的一个区别是,这里并不要求3D的特征恰好被5x64x64整除,而且shifted window attention也不需要啥特殊的处理,对于边界变长的window只需要单独按照一个window处理即可。
2025-07-18 17:08:51
969
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅