完整的 LoRA 模型训练步骤：如何使用 Kohya_ss 进行 LoRA 训练

最新推荐文章于 2025-02-26 15:30:00 发布

T1.Faker

最新推荐文章于 2025-02-26 15:30:00 发布

阅读量1.1k

点赞数 19

分类专栏： comfyui Diffusion 文章标签： lora kohya

本文链接：https://blog.csdn.net/weixin_42010722/article/details/145751621

版权

Diffusion 同时被 2 个专栏收录

11 篇文章

订阅专栏

comfyui

6 篇文章

订阅专栏

完整的 LoRA 模型训练步骤：如何使用 Kohya_ss 进行 LoRA 训练

一、环境配置
lora训练
训练
- 解决方法：

使用kohya_ss来进行lora训练，难点就是各种报错的问题

如果你自己的CUDA，python，pytorch版本还和官网推荐的不一样，更是报错更多，

Kohya_ss 是一个功能强大的工具，专为 Stable Diffusion 模型的训练设计，可以帮助用户使用 LoRA 方法对模型进行微调。在本文中，我们将详细介绍如何使用 Kohya_ss 进行 LoRA 模型训练的完整步骤，包括环境配置、数据处理、以及模型训练等。

我是Linux centOS系列，用的英伟达CUDA11.2的服务器，虽然官方使用至少是CUDA11.8，但从底层的算子逻辑原理上CUDA11.2是兼容的。

具体步骤如下：

一、环境配置

1. 安装 Python 和虚拟环境

首先，你需要在 CentOS 系统上创建一个 Python 虚拟环境。以下是详细步骤：

安装 Conda: 如果你没有安装 Anaconda 或 Miniconda，可以从官方网站下载并安装它们。
创建 Python 3.10.9 环境: 安装完成后，使用以下命令创建一个 Python 3.10.9 的虚拟环境：

conda create --name kohya_ss python=3.10.9

注意必须是3.10.9，不然后续安装一些库的时候，不兼容报错

激活环境:

conda activate <your_env_name>

2. 克隆 Kohya_ss 仓库

Kohya_ss 项目托管在 GitHub 上，你可以使用以下命令克隆仓库：

git clone --recursive https://github.com/bmaltais/kohya_ss.git
cd kohya_ss

3. 安装依赖

在 kohya_ss 目录下，运行以下命令安装必要的依赖：

chmod +x ./setup.sh
./setup.sh

如果安装这里，报错，或者没有权限去安装，也可以打开项目的requirements_linux.txt和requirements.txt的文件，手动pip安装。

我的CUDA是11.2 兼容的torch版本正好就是文件里requirements_linux.txt的：

pip install torch==2.1.2+cu118 torchvision==0.16.2+cu118 xformers==0.0.23.post1+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

最后安装完所有通过python -m bitsandbytes验证，如果没有报错就说明安装没问题了。

python -m bitsandbytes

4. 启动 GUI

若要在 Linux 上启动 GUI，你可以使用以下命令：

bash gui.sh --listen 0.0.0.0 --server_port 7860 --inbrowser --share

这里 0.0.0.0 表示可以从任何 IP 地址访问服务器，7860 是端口号，–share 参数允许你共享链接。你可以根据需要调整这些参数。

后续在训练的时间，需要通过网络访问huggingface下载预训练模型，但通常linux服务器没有代理，是无法访问的，下载不了模型，或者在下载模型时出现连接超时的问题

我的方法是

HF_ENDPOINT=https://hf-mirror.com bash gui.sh --listen 0.0.0.0 --server_port 7860 --inbrowser --share

利用一个镜像地址： http://hf-mirror.com下载

lora训练

1. 准备数据图片处理打标签

首先，你需要准备原始训练图片，并使用 Kohya_ss 中的 BLIP Captioning 工具对这些图片进行描述。

在 Kohya_ss 的 GUI 中，点击 Utilities，然后选择 Captioning 和 BLIP Captioning。
在这里插入图片描述
在弹出的界面中，选择存储训练图片的文件夹，

并在 “Prefix to add to BLIP caption” 栏目中填写图片描述的前缀文字（可选）（不填的话，后续点Caption images，生成标签过程也会下载预训练的blip模型，给你图像描述的）。

点击 Caption images 按钮开始对图片进行处理。

此时，BLIP 将生成每张图片的文字描述，这些描述将用于训练LoRA 模型。

linux日志出现如下，就说明生成出来了
在这里插入图片描述

为什么打标签：标签为模型学习提供明确的目标和方向。在 LoRA 训练中，模型通过对数据集中图像和对应标签的学习，理解不同数据特征与期望输出之间的关系。例如在训练一个生成动漫角色的 LoRA 模型时，标签可以是角色的名字、性格特点、所属动漫等信息。模型在训练过程中，依据这些标签，将图像中的人物外貌、服饰风格等特征与标签内容建立联系，从而学习到如何生成符合特定角色设定的图像。如果没有标签，模型就无法得知这些图像代表的具体概念，难以进行针对性学习。

2. 配置 LoRA 训练

在 Configuration file 部分，你可以选择加载一个预定义的配置文件。可以在网上找到一些常用的配置文件，或者根据你的需求自行编写。这个文件通常是一个 JSON 格式的文件，包含了训练过程的参数和设置，其实也不需要自己准备，在你lora，gui界面训练的时候，就会自动生成，可以直接跳过这里。

例如，配置文件可能看起来像这样：

{
  "LoRA_type": "Standard",
  "LyCORIS_preset": "full",
  "adaptive_noise_scale": 0,
  "additional_parameters": "",
  "async_upload": false,
  "block_alphas": "",
  "block_dims": "",
  "block_lr_zero_threshold": "",
  "bucket_no_upscale": true,
  "bucket_reso_steps": 64,
  "bypass_mode": false,
  "cache_latents": true,
  "cache_latents_to_disk": false,
  "caption_dropout_every_n_epochs": 0,
  "caption_dropout_rate": 0,
  "caption_extension": ".txt",
  "clip_skip": 1,
  "color_aug": false,
  "constrain": 0,
  "conv_alpha": 1,
  "conv_block_alphas": "",
  "conv_block_dims": "",
  "conv_dim": 1,
  "dataset_config": "",
  "debiased_estimation_loss": false,
  "decompose_both": false,
  "dim_from_weights": false,
  "dora_wd": false,
  "down_lr_weight": "",
  "dynamo_backend": "no",
  "dynamo_mode": "default",
  "dynamo_use_dynamic": false,
  "dynamo_use_fullgraph": false,
  "enable_bucket": true,
  "epoch": 1,
  "extra_accelerate_launch_args": "",
  "factor": -1,
  "flip_aug": false,
  "fp8_base": false,
  "full_bf16": false,
  "full_fp16": false,
  "gpu_ids": "",
  "gradient_accumulation_steps": 1,
  "gradient_checkpointing": false,
  "huber_c": 0.1,
  "huber_schedule": "snr",
  "huggingface_path_in_repo": "",
  "huggingface_repo_id": "",
  "huggingface_repo_type": "",
  "huggingface_repo_visibility": "",
  "huggingface_token": "",
  "ip_noise_gamma": 0,
  "ip_noise_gamma_random_strength": false,
  "keep_tokens": 0,
  "learning_rate": 0.0001,
  "log_tracker_config": "",
  "log_tracker_name": "",
  "log_with": "",
  "logging_dir": "/data/kohya_ss/logs",
  "loss_type": "l2",
  "lr_scheduler": "cosine",
  "lr_scheduler_args": "",
  "lr_scheduler_num_cycles": 1,
  "lr_scheduler_power": 1,
  "lr_warmup": 10,
  "main_process_port": 0,
  "masked_loss": false,
  "max_bucket_reso": 2048,
  "max_data_loader_n_workers": 0,
  "max_grad_norm": 1,
  "max_resolution": "512,512",
  "max_timestep": 1000,
  "max_token_length": 75,
  "max_train_epochs": 0,
  "max_train_steps": 1600,
  "mem_eff_attn": false,
  "metadata_author": "",
  "metadata_description": "",
  "metadata_license": "",
  "metadata_tags": "",
  "metadata_title": "",
  "mid_lr_weight": "",
  "min_bucket_reso": 256,
  "min_snr_gamma": 0,
  "min_timestep": 0,
  "mixed_precision": "fp16",
  "model_list": "",
  "module_dropout": 0,
  "multi_gpu": false,
  "multires_noise_discount": 0.3,
  "multires_noise_iterations": 0,
  "network_alpha": 1,
  "network_dim": 8,
  "network_dropout": 0,
  "network_weights": "",
  "noise_offset": 0,
  "noise_offset_random_strength": false,
  "noise_offset_type": "Original",
  "num_cpu_threads_per_process": 2,
  "num_machines": 1,
  "num_processes": 1,
  "optimizer": "AdamW8bit",
  "optimizer_args": "",
  "output_dir": "/data/kohya_ss/outputs",
  "output_name": "tianqiong1",
  "persistent_data_loader_workers": false,
  "pretrained_model_name_or_path": "runwayml/stable-diffusion-v1-5",
  "prior_loss_weight": 1,
  "random_crop": false,
  "rank_dropout": 0,
  "rank_dropout_scale": false,
  "reg_data_dir": "",
  "rescaled": false,
  "resume": "",
  "resume_from_huggingface": "",
  "sample_every_n_epochs": 0,
  "sample_every_n_steps": 0,
  "sample_prompts": "",
  "sample_sampler": "euler_a",
  "save_every_n_epochs": 1,
  "save_every_n_steps": 0,
  "save_last_n_steps": 0,
  "save_last_n_steps_state": 0,
  "save_model_as": "safetensors",
  "save_precision": "fp16",
  "save_state": false,
  "save_state_on_train_end": false,
  "save_state_to_huggingface": false,
  "scale_v_pred_loss_like_noise_pred": false,
  "scale_weight_norms": 0,
  "sdxl": false,
  "sdxl_cache_text_encoder_outputs": false,
  "sdxl_no_half_vae": false,
  "seed": 0,
  "shuffle_caption": false,
  "stop_text_encoder_training_pct": 0,
  "text_encoder_lr": 0.0001,
  "train_batch_size": 1,
  "train_data_dir": "/data/kohya_ss/dataset",
  "train_norm": false,
  "train_on_input": true,
  "training_comment": "",
  "unet_lr": 0.0001,
  "unit": 1,
  "up_lr_weight": "",
  "use_cp": false,
  "use_scalar": false,
  "use_tucker": false,
  "v2": false,
  "v_parameterization": false,
  "v_pred_like_loss": 0,
  "vae": "",
  "vae_batch_size": 0,
  "wandb_api_key": "",
  "wandb_run_name": "",
  "weighted_captions": false,
  "xformers": "xformers"
}