建筑类AIGC图像微调模型(LoRA)训练经验介绍

前言

AIGC大模型正广泛应用于各行业,包括建筑设计。运用这些大模型,设计师可以在设计早期阶段进行方案探索和优化,提高设计效率和满足实际需求。然而,要充分发挥大模型的优势,需要进行微调以适应特定设计任务。这是一项技术挑战,也是创新机会。

AIGC大模型辅助方案设计

LoRA(Low-Rank Adaptation,低秩自适应)是目前最常用的图像大模型微调方法,其背后的原理是通过识别和删除大模型中的冗余信息,创建一个更有效的模型,保留其原始性能,但只需要更少的资源来训练。

目前开源的LoRA模型已经丰富,但不能完全满足多样化的设计需求。因此,通常需要根据具体需求来训练和优化模型。

国内某AI模型网站

根据经验,像建筑风格/建筑师/建筑材料(幕墙、砖、半透明材料)/ 建筑类型(体育场、乡建、更新)/ 场景类型(景观、室内、鸟瞰、中庭)都是可以训练的。

通常lora训练包括素材图片准备,素材图片打标,训练工具设置这三步,下面将分别进行介绍。

步骤一:素材图片准备

想要训练一个有效的lora模型,训练集图片素材的选择是至关重要的。通过前期对素材的筛选,可以让AI更准确地学习,从而提高模型训练的成功率。就好像质量高、覆盖面广的教材,可以更好地提高小朋友的知识水平一样。

通常一个训练集大概需要30-100张图片,一般来说,训练越简单的概念,需要的图片数越少。

根据经验,可以从以下四个方面来判断素材是否满足要求:

1. 图片是否清晰

2. 特征是否显著

3. 边缘是否明确

4. 环境是否稳定

首先是图片是否清晰,这个比较好理解的。越清晰、分辨率越高的图片,包含越多的图像信息,即使AI出现学习效率不高的情况,依然可以学到不少图片信息。分辨率下限是512,越高越好。

然后是特征是否显著,这个可以理解为你想要训练的概念,对应的特征信息在图片上的占比。不同的训练目标,占比是不太一样的。以训练建筑类lora为例,建筑是无法与环境脱离开的,所以选择建筑类训练素材时,除了主体外一定要有一定的建筑环境。如果是训练建筑概念,建筑主体的比例可以大一些,如果是训练画风或者鸟瞰视角,环境的比例可以大一些。具体的配比相对主观,根据经验可以以1/3为单位去调整。当然也没必要太精确,毕竟炼丹本身就是玄学…

之后边缘与环境的要求,其实都是对特征是否显著的补充。边缘越清晰,越能将不同的特征区分开。在叠加controlnet进行生图时,也能更好地匹配lora模型中的特征。环境越稳定,特征就越统一。比如说阴天的铝板反射低,就不太容易和涂料墙面区分开,AI就可能学错特征。

特别说明一下,以上的选图策略,都是针对相对单一的概念训练的(单一建筑师风格,甚至某个特定项目的风格),最终生图的风格会比较固定。如果想要追求泛化性,玄学成分更高,失败的概率也比较大,建议先从单一概念练手。

**步骤二:**素材图片打标

训练集图片选择后,需要进行“打标”,即添加文字描述,帮助AI模型理解图片特征,如物体形状、颜色、位置,场景环境,图片风格等。打标原则是越详细越好,以提供丰富的特征描述,使AI模型从多角度理解图片。例如,建筑设计图不仅可标注类型、风格,还可标注材料、结构,让AI模型生成更符合设计需求的方案。

打标的过程也是一个需要精细工作和专业知识的过程。既要根据训练需求选择合适的标注,又要保证标注的质量和一致性,以避免引入误导性的信息。

市面上的打标工具有很多,目前我尝试过的效果不错的打标器有Qwen-vl-max,gemini-pro-vision,gpt4-vision,以这张水上乐园的图片为例,各个打标器的对比效果如下:

水上乐园-由MJv6生成

打标效果对比

很明显GPT4V打的标最详细,不过考虑到易用性及成本,建议使用国产大模型Qwen-vl-max,效果也是很不错的。

打标器生成图片相应的tag后,还需要人工处理。主要包括两点,一是按重要性由高到低将tag排序,二是把含糊、笼统、错误的tag删掉,并补充重要的tag。以上面Qwen打标的水上乐园的图片tag为例,人工处理后为:

Pirates theme, wooden buildings, water park, boat, slide, lighthouse, castle, fantasy architecture, turquoise water, red slide, flags, sunny, first-person perspective

海盗主题,水上乐园,木制建筑,船,滑梯,灯塔,城堡,奇幻建筑,绿松石水,红色滑梯,旗帜,晴天,第一人称视角

因为训练的是海盗主题水上乐园,所以将这个tag放到了最前面,接下来是对建筑的描述,后面是对配景的描述,最后补充了天气和景别的描述,这样组成了一串完整的图片tag。

最后将所有图片和tag的文本文件放到同一个文件夹里,就组成了我们的训练集。

步骤三:训练工具设置

接下来就是设置训练工具了,目前最受好评的是秋叶的公开免费训练脚本,这个工具版本更新快,防呆设计优秀,同时参数调整基本能满足一般lora训练及进阶训练所需。

目前我们也在开发自有训练平台中,会内置更适合建筑类lora的训练参数,进一步训练LoRA的门槛。

即使到最低的训练门槛,仍然有几个至关重要的训练参数不得不理解一下:

1. 单张重复次数(repeat),即AI在每张图片上学习的次数,通常越写实的训练集,学习次数越高,建筑类通常在20-50次之间。在秋叶脚本中,需在在训练集文件夹前增加一个数字前缀,即参数repeat

2. 循环轮次(epochs),即整个训练过程中,在训练集上循环学习的次数。假设最大训练epoch为10,即训练过程中将会进行10次完整的训练集循环。这个参数可以根据实际情况进行调整,以达到更好的模型效果。对于建筑类的训练,通常的循环轮次在10次左右。

3. 每 N epoch(轮)自动保存一次模型,会在整个训练过程中随着循环训练的次数保存多个模型,假设epochs是10,每2轮保存一次模型,最后会保存10/2=5个模型,这样我们可以对多个模型进行测试,从而找到最合适的epoch。

4. 学习率(lr),学习率是训练神经网络时一个很重要的超参数,控制着权重的更新速度。用通俗的话来理解,学习率越高,学习得越全面,但容易以偏盖全,学不到各个素材间的共同点。学习率越低,会更容易获取整体特征,但也容易囫囵吞枣,理解不够深刻。因此,学习率的大小需要根据具体情况进行调整,以获得最佳的学习效果。通常建筑类可以设置为8e-5(科学计数法,即0.00008),以2e-5为一个单位进行上下调整。

如何判断一个模型训练是否成功?

最有效的方法是直接测试模型生图效果,看是否能够还原出自己想要训练的特征。这里可以使用SD中的XY plot对循环过程过程中的多个模型进行对比测试,找到效果最好的模型。

另外还可以通过观察和分析学习曲线,帮助我们判断模型的学习效果和性能。学习曲线是以训练轮次(epochs)为横坐标,以模型的学习指标(损失值loss)为纵坐标绘制的曲线。通过观察学习曲线,我们可以了解模型的学习进度和状态,从而进行合理的参数调整和优化。这里主要需要留意学习曲线的形状及每次模型保存的loss值。

1. 观察学习曲线的形状

学习曲线的平滑度反映学习率的合理性,平滑曲线意味着合适的学习率和训练集特征统一性。学习率决定模型权重更新速度,过高或过低的学习率可能导致曲线剧烈震荡。

训练集大小影响学习曲线形状,更多的图片可能导致震荡,因为增加了模型的学习复杂度。建议从少量图片和简单概念开始训练,降低学习难度,稳定模型学习。

2. 观察每次模型保存的loss值

损失值(LOSS)是衡量模型预测与实际标签差异的重要指标。理论上,损失值越低,模型的学习效果越好,预测结果与训练集特征越接近。但在实际应用中,过低的损失值可能导致模型过度拟合训练数据,忽视数据的一般性特征,从而降低对新数据的预测性能。因此,需要找到一个合适的损失值,既能学习训练数据的特征,又能保持对新数据的预测性能。

对于建筑类的LoRA模型训练,通常来说,损失值在0.04上下是比较合适的。这个值可以作为一个参考标准,但具体的合适损失值还需要对LoRA的生图效果进行对比测试,最终找到效果最优的模型。

训练和应用建筑类AIGC图像微调模型(LoRA),对建筑师来说是一个全新的领域,需要设计师理解训练原理,精心准备训练素材,多次调整训练参数,并通过不断的试验和调整,找到最能还原设计特征的模型。

希望这篇文章能为您在这个过程中提供有价值的参考和帮助。同时,我们也在开发自有训练平台,降低训练门槛,让设计师可以更多地关注到设计本身,更好地利用AI技术,实现更优秀的建筑设计。

写在最后

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程,模型插件,具体看下方。

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

若有侵权,请联系删除
  • 28
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值