第五讲:LORA模型训练-探秘数据集整理,挑战核心闪电战

本文介绍了如何准备理想的LORA模型训练数据集,包括人物和非人物Lora模型的区别,素材图的使用比例,以及影响训练的因素。同时提供了获取和生成数据集的方法,如网络搜集、AI绘图工具和免费/付费平台推荐。
摘要由CSDN通过智能技术生成

提前看:全部12节更详细实操课程视频地址:

SD-LORA模型训练及SDXL-lora模型训练基础加进阶教程 - 3D数字教程_stable diffusion、autoDL算力云平台 - 虎课网 (huke88.com)icon-default.png?t=N7T8https://huke88.com/course/161695.html(模型训练助力大礼包+2000G模型包请至第十二节视频课素材集处自行免费提取)

1、理想的达标数据集整理

图片素材和Tag标签提示词文本缺一不可,没有一个完整的数据集,我们就无法训练出满意的Lora模型。那么,怎样的一个数据集整理才算达标呢?

1.1 数据集的完善:

  1. 定制人物Lora模型:人物脸型统一,即必须是同一个人。真人和二次元要分开,不能混淆训练。
  2. 非定制人物Lora模型:很多不同长相的人物素材。可以当成画风训练。

为了更好的让模型学习素材以及提高泛化性,提供的训练素材尽量内容特征齐全。比如人物Lora模型训练时,可以搜集包括:

以上这些素材图中,如果确实搜集不到,那就P图,如果不会P图,那就宁缺毋滥。

1.2、素材图使用比例参考(可根据需求调整图片数量比例):

身体比例参考:

头像照:30%

半身照:30%

七分或九分照:20%-30%

全身照:10%-20%

表情比例参考:

正常表情(如微笑、平静、严肃等):90%以上

非正常表情(如做鬼脸、吐舌头等):10%以下或不要,除非特殊需求,比如就要训练做鬼脸多的Lora模型,可以根据需求更改数量比例。

服饰比例参考:

同一件服装尽量不超过5%-10%,除非特殊需求,比如就要训练某件特定服装下的人物,可以根据需求更改数量比例。

画风Lora模型(统一或相近的风格):

色彩色调,如蓝、红、明、暗等。

艺术风格,如某个时期、某个派别、某个艺术家的画风,如中世纪艺术、抽象艺术、野兽派、洛可可、巴洛克等。

绘画技法,如素描、插画、油画、水墨等。

光影角度:如顶光、侧光、自然光、摄影棚光、广角、第一人称视角等。

主体主题:如人物、动物、风景、建筑等。

风光风景:如山水、雪景、草原等。

自创风格:自己生出的图或者融合别人的大模型或者Lora模型后出的素材图。

背景处理参考:

素材图主体自带背景较多或不同,不用抠白底图。

素材图主体自带背景较少或相似,可根据需求部分抠成白底图。

1.3影响训练的其他因素:

训练素材的数量和训练次数(每张图的训练次数以及总轮次)。

过多的训练次数容易让模型过拟合,失去泛化性,即不管你如何修改提示词,它只会出你数据集中的素材图,不懂变通。

总步数=素材图数量*N次/张(每张图训练的次数)*总轮次(整体需要训练多少轮)

在合适的学习率等参数下(后续会讲到),训练数据参考(可根据需求和实际情况灵活调整):

人物训练:10-30张素材图保底,50张适用,80张更好。每张图训练30-40次,总轮次5-10轮,总步数5000步及以上。

画风训练:尽量统一风格,50张保底,100张适用,150-200张更好。每张图训练30-40次,总轮次8-10轮,总步数2万步及以上。

高质量的图片素材越多,也是模型学习越好的条件之一。但是图片素材越多,后期工作量会变大,比如逐一修改错误标签文本(直接一字不改,丢进炼丹炉让它自生自灭的同学可忽略)。另外,需要结合学习率、Loss损失值等(后续会讲到)和实际需求,灵活调整各项参数设置,以达到自己预期的Lora模型训练效果。

记住:并不是素材图越多越好,也并不是训练次数越多越好。最终的训练结果,可能会过拟合,失去泛化性,即生出的每张图都只有数据集中的素材图元素,说白了就是太像太死板太不灵活了。还可能会欠拟合,就是调用Lora模型后不起作用或者效果甚微,就是说太不像了。在训练过程中,总有一个点,属于模型的最优学习点,我们只能尽量去靠近这个最优学习点,让最终的模型效果尽量满足我们的需求。一次性就能顺利训练出较为优秀的模型,是需要技术+经验+运气的。炼丹的尽头是玄学,既然是玄学,那么我们就不要去纠结怎么才能一次性训练出一个世界上最完美的模型了,目前还做不到甚至没有意义。不如,总结训练数据、训练经验,才是上上策。

2、如何获取或生成适合Lora模型的数据集素材图

2.1 如果没有很好的方法,那就直接在网上搜集,比如百度图片、360图片等,以及各大图片素材网,如昵图网、花瓣网、千图网等。

2.2 会爬虫采集的同学,可以尝试自行采集素材图。

2.3 使用Midjourney(简称MJ)生成素材图。MJ也是一款AI绘图软件,首次注册使用有25次免费出图的机会,但是后续会根据周/月/年收取相关的使用费用,有条件的同学可以尝试,这里不做过多的说明。

2.4 其他免费或收费的AI绘图网站或软件,可自行网上搜索。

2.5 国内网站推荐:

LiblibAI·哩布哩布AI - 中国领先的AI创作平台  (每日300点免费在线生图(20-60张左右),在线炼丹则需充值)

tusiart.com(每天免费100张左右)

国外网站下载(需要科学上网):

https://civitai.com/

https://huggingface.co/

下节课程内容预告:LORA模型训练-英文不好?5种超好用的Tag打标工具(自带中英翻译)

全部12节课程视频及模型训练助力大礼包软件+素材地址:SD-LORA模型训练及SDXL-lora模型训练基础加进阶教程 - 3D数字教程_stable diffusion、autoDL算力云平台 - 虎课网 (huke88.com)icon-default.png?t=N7T8https://huke88.com/course/161695.html

  • 17
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值