- 博客(24)
- 收藏
- 关注
原创 SD框架下 LoRA 训练教程4-理解 LoRA 训练中的 Loss 值及其优化策略
LORA训练Loss值常见问题及建议 训练LORA时,Loss值是关键指标。常见失败案例包括Loss值过高(模型欠拟合)或剧烈波动(学习率过大),可通过调整学习率、增加数据或检查数据质量解决。经验上,Loss值稳定在0.1~0.3较好,但需结合任务调整。建议监控Loss曲线,确保平滑下降,避免过拟合或欠拟合。
2025-06-04 17:25:25
274
原创 游戏AI研究所:一文看懂!VAE 在 Stable Diffusion 中到底干了什么?
二。VAE 在 Stable Diffusion 中的作用?在 Stable Diffusion 中,VAE 的主要功能包括:1.图像压缩与还原:将图像编码到潜在空间,进行处理后再解码还原,提升生成效率。2.提升图像质量:改善生成图像的色彩饱和度和细节表现,尤其是在面部、手部等细节区域。3.与扩散模型协同工作:在潜在空间中进行扩散过程,提升生成图像的多样性和质量。例如,使用 VAE 可以使生成的图像颜色更鲜艳、细节更清晰,改善面部和手部的表现。
2025-05-26 16:47:19
688
原创 SD框架下 LoRA 训练教程3-LORA学习率调度器(Learning Rate Scheduler)核心策略与实践指南
学习率调度器(LearningRateScheduler)是深度学习中用于动态调整学习率的工具,旨在优化模型训练过程。在训练初期,较大的学习率有助于快速收敛,而后期逐渐减小学习率则能提高模型的稳定性和精度。常见的学习率调度策略包括线性衰减、余弦退火、带重启的余弦退火、多项式衰减、常数和带预热的常数等。这些策略各有特点,适用于不同的训练需求。学习率调度器通过在不同训练阶段调整学习率,控制模型的学习步伐,从而提高训练效率和模型性能。例如,使用StepLR调度器可以在训练
2025-05-16 16:12:06
1072
原创 游戏AI研究所-Stable Diffusion中LoRA(Low-Rank Adaptation)的定义及权重的作用机制
LoRA(Low-Rank Adaptation)是一种高效的微调技术,通过引入可训练的低秩矩阵,冻结大模型的大部分参数,实现低资源消耗下的高效微调。在图像生成领域,LoRA广泛应用于Stable Diffusion等模型,用于快速定制特定风格、角色或材质的图像生成。对比分析SD1.5、SDXL和FLUX三种模型中的LoRA微调技术,SD1.5适合算力有限的用户,SDXL适合追求高质量图像生成的用户,FLUX则适合专业用户追求高精度图像生成。LoRA权重(strength)和CLIP权重(strength_
2025-05-16 13:24:15
781
原创 SD放大算法选哪个好?一文看懂高分修复模型怎么用!
Ⅲ总结:SDXL 高分辨率修复支持多种放大算法,按原理大致分为六类:①Latent 插值类,②传统数学插值,③GAN 神经网络放大,④Transformer/注意力机制放大,⑤图像修复模型,⑥反扩散重建。Latent 系列(如 Latent antialiased / bicubic)运行快,但图像模糊,仅适合草图或预览;传统插值(如 Lanczos)基于图像数学插值,不带美学优化,保真度高但缺乏细节恢复。GAN 类模型(如 R-ESRGAN_4x+、AnimeSharp、Remacri)基于 AI 生成
2025-05-14 09:00:00
762
原创 游戏AI研究所-F1独立游戏图标场景LORA
模型名称lora:gmic-Style-_F1_Stick-figure-V35适用:游戏图标模型版本: FLUX1.0模型触发词: zeqa avatar_/(avatar/)
2025-05-13 09:00:00
183
原创 在COMFYUI或者SD生图中,调度器(Scheduler)是什么,怎么用?
在StableDiffusion(SD)和ComfyUI中,调度器(Scheduler)是控制扩散过程中噪声水平变化的关键组件,直接影响生成图像的质量、细节和风格。常见的调度器类型包括normal、karras、exponential、sgm_uniform、simple、ddim_uniform、beta、linear_quadratic和kl_optimal,每种调度器都有其独特的噪声调度策略和适用场景。例如,karras调度器在细节和对比度方面表现出色,而sgm_uniform适合艺术风格的创作。调度
2025-05-11 01:02:32
902
原创 使用Stable Diffusion(SD)中CFG参数指的是什么?该怎么用!
CFG参数控制模型在生成图像时对提示词的服从程度,数值范围通常为1到20,推荐在5到12之间。数值越高,模型越严格遵循提示词,但可能导致图像失真;数值越低,模型自由度更高,图像可能更自然但偏离描述。CFG与提示词长度无直接关系,仅控制模型对提示词的接近程度。在Flux模型中,建议将CFG设为1.0以禁用传统提示词引导,并将Distilled CFG Guidance设为3.5作为新的引导机制。
2025-05-09 20:40:16
577
原创 使用Stable Diffusion(SD)中,步数(Steps)指的是什么?该如何使用?
在Stable Diffusion(SD)中,步数(Steps) 指的是采样过程中的迭代次数,也就是模型从纯噪声一步步“清晰化”图像的次数。你可以理解为模型在画这张图时“润色”的轮数。
2025-05-08 19:52:59
538
原创 SD框架下 LoRA 训练教程1-学习率U‑Net和 Text Encoder详解
学习率是控制 LoRA 在 SDXL 模型中“学习快慢”的关键超参,需分别为 U‑Net(画图部分)和 Text Encoder(语义理解部分)设定不同的值。根据素材集规模,U‑Net 学习率从 3e‑6(10 张)到 2e‑4(> 3000 张)逐步提高,Text Encoder 则从 5e‑7 上升到 3e‑5。训练总步数也应随数据量增长而增加(约 800–> 10000 步),并配合 3%–5% 的 warmup 预热,让学习曲线“先升后衰”更平滑。小数据集需适当降低学习率、增加正则与梯度裁剪,大规模
2025-05-07 20:24:55
1290
原创 SD框架下 LoRA 训练教程2-网络大小(Network Dim)”和“(Network Alpha ) 值”专业分析
控制 LoRA 的表达能力更大的维度能表示更复杂的变化(如风格、细节、构图调整等)。
2025-05-06 16:43:59
266
原创 关于 Stable Diffusion 中 CLIP 层数与 clip_skip 的通用理解总结:
在 SD 1.5、SDXL 甚至 FLUX 模型中,CLIP 是负责解析提示词的核心组件,通常包含 12 到 32 层 Transformer 结构。不同模型使用的 CLIP 层数不同:SD 1.5 为 12 层(ViT-L/14)、SDXL 为 32 层(ViT-G/14)。clip_skip 控制“终止层数”,即使用倒数第几层的输出作为提示词向量。clip_skip=1 通常意味着跳过最后一层,用倒数第二层结果,更贴近原始提示语义;clip_skip=2 则进一步保留具体词义,减少过度抽象。无论是 ch
2025-05-06 11:51:25
601
原创 SD或flux训练LORA中素材的正则化是什么?该如何规范使用?
数量比例:一般为训练数据集的 1:1 到 1:10,根据任务的复杂性进行调整。风格差异:确保风格差异适中,避免过大差异引发过拟合。超参数调整:调整正则化强度与学习率等超参数,确保正则化不影响模型的主学习目标。影响:正则化数据集的增加通常能提升泛化能力,但过多会影响训练效果,特别是模型可能会偏向于正则化数据集的特征。
2025-05-02 11:37:13
639
原创 你为啥AI出图抽卡概率那么低?游戏AI研究所-FUXL1.0 提示词填写顺序表 (教程+原因+后果
你为啥AI出图抽卡概率那么低?游戏AI研究所-FUXL1.0 提示词填写顺序表 (教程+原因+后果
2025-04-30 13:27:23
514
原创 游戏AI研究所-lora:gmic icon_game charactersⅠ.safetensors
示例:gmic character_/(Game character/), A girl, with strawberry-colored blonde hair, holding a magnifying glass, in a detective costume and with a curious expression, Exaggerated expression,White background,Half-length portrait photo,Pixar style
2025-04-28 13:21:38
294
原创 「Stable Diffusion/SDXL框架下AI采样算法性能分析与优缺点评估」——以不同采样策略在生成质量、效率与资源消耗方面的对比为核心
「Stable Diffusion/SDXL框架下AI采样算法性能分析与优缺点评估」——副标题:以不同采样策略在生成质量、效率与资源消耗方面的对比为核心
2025-04-27 17:24:44
501
原创 Flux.dev 多风格文生图大模型微调-游戏AI研究所
目 录1 数据集准备多风格语料 2 模型选择与初始化 3 超参数设置 4 开始训练与监控 参考文献 1 数据集准备多风格语料收集和构建高质量、多样化的多风格图像数据集是最关键的第一步。为每一种目标风格建立一个图像集合,尽可能涵盖丰富的内容题材。建议每种风格准备至少50~100张图像(数量越多越好,但也要考虑平衡各风格的数据量)。数据准备要注意以下几点:风格选择与定义:首先明确50种风格的清单(参考文末实例列表)。风格可以是画种(如油画、水彩)、艺术流派(如印象派、超现实主义)、现代数字风格(如像素风、赛博
2025-04-27 11:35:49
1186
原创 【GMIC-游戏AI研究所】单模型实现全场景游戏视觉创作
第二级实施对抗性风格扰动策略,在潜空间Z引入动态风格偏移量Δ_z=Φ(z,c)⊙ε,其中Φ(·)为元学习调制网络,ε~N(0,σ^2I);评估体系构建方面,提出多维度风格创新能力指标:1)风格拓扑相似性STS=∫_M d_H(Γ_g,Γ_r)dμ,其中d_H为Hausdorff距离;训练策略方面,设计双路径对比学习范式:主路径实施风格可控的扩散过程,通过改进的Fokker-Planck方程建立条件概率流∂p_t/∂t=∇·(p_t∇E(x,c)),其中能量函数E(·)包含风格相似性约束项;
2025-04-23 17:52:09
762
原创 游戏AI研究所-lora:兔子工坊_二次元场景Ⅵ
模型讨论组:DISCORD:https://discord.gg/njBMYJ7mRF(推荐)QQ频道:https://pd.qq.com/s/6ekpt1xei?businessType=9(推荐)
2025-04-23 17:45:24
203
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人