在使用自己的数据集训练完ControlNet之后,发现源代码并没有相应的测试代码,因此在查阅了相应的资料之后,成功的测试了相关流程,步骤如下:
测试的时候,可以先转换为diffusers的模式进行测试
参考如下的这个工作:
https://github.com/haofanwang/ControlNet-for-Diffusers/
注意到,在使用ControlNet进行训练的时候,已经进行过这一步,因此此处直接跳到第二步进行,也就是将finetuned之后的模型转换到diffusers.
注意:请提前配置相关环境,可以先配置一个pytorch的基本环境,然后再按照以下步骤安装diffusers.
conda create -n test python=3.9 pip
conda activate test
conda install pytorch==1.12.0 torchvision==0.13.0 torchaudio==0.12.0 cudatoolkit=11.6 -c pytorch -c conda-forge
python ./scripts/convert_controlnet_to_diffusers.py --checkpoint_path control_any3_openpose.pth --dump_path control_any3_openpose --device cpu
此处保存的路径是一个文件夹,处理结束的到的结果长相如下:
然后,在进行测试时,加载这个文件夹即可
from diffusers import StableDiffusionControlNetPipeline
from diffusers.utils import load_image
pose_image = load_image('https://huggingface.co/takuma104/controlnet_dev/resolve/main/pose.png')
pipe = StableDiffusionControlNetPipeline.from_pretrained("/path/your/saved/folder").to("cuda")
pipe.safety_checker = lambda images, clip_input: (images, False)
image = pipe(prompt="1gril,masterpiece,graden", controlnet_hint=pose_image).images[0]
image.save("generated.png")
测试出现的问题:
1. Unexpected key(s) in state_dict: "text_model.embeddings.position_ids".
安装的transformers的版本不对,卸载后安装比较稳定的版本
pip uninstall transformers
pip install transformers==4.25.1
参考链接:https://github.com/open-mmlab/PIA/issues/13
心得:
在训练controlNet的时候,可以选择diffusers进行训练。其中代码已经经过加速优化,同时测试代码也很完善。因此可以省去很多不必要的麻烦。后续会跟进diffusers中controlNet的网络训练方式。