1、图中出现的物体,尽量标注具体数量;
解释:比如图中出现了3只兔子,不要只标注rabbit,而是要具体说明数量3rabbit,不然出图的时候,没法子控制兔子的数量,也不好控制位置,甚至兔子很容易出现多脚多头。这背后的逻辑就是,如果我们不标注数量,那么模型就认为一窝兔子才是rabbit,底模本来认为一只兔子是rabbit,然后变成了一窝是rabbit,这种拧巴会特别扭曲。
2、标注一个综合形象时,固定的特征一定不要出现在标注中;
解释:比如嫦娥的标注,对应的汉服、长发和披肩等词一定不要出现在标注中,不然我们生成图像写prompt时,就要写上这些内容,有的clip总是漏词,这时候就可能会出现短发嫦娥了。
3、尽量自然语言描述的方式标注;
解释:sd1.5一般都是标注短语,tagger预标注的结果就是这样的,如果我们使用的底模是sd1.5的话,就使用这个格式;但是我的体会是,sdxl比1.5好太多了,所以还是尽量标注自然语言的长描述文本,比如:在天空中,嫦娥抱着一只兔子飞向月亮。这样的好处是“抱”这种动作能很好的训练出来,我们本来数据就很少,“新形象1”,抱着,“新形象2”,这样的标注出图时候,pormpt很难精准控制,我猜测背后的逻辑是需要学习的东西更多更难收敛。
4、风格差异太大的图尽量扔掉;
解释:比如我们想要训练一个naji风格的嫦娥,这时候有一个特别精美的素描嫦娥,你很犹豫,觉得这个素描形体很好,这时候一定要扔了。这种风格差异大的图片多了之后,我们lora出图的风格就会不稳定,我自己的体会就是一开始搜集了很多的嫦娥,脸经常糊,有时候山和建筑的风格就差别挺大。我清理了三分之一的数据之后,更稳定了。
其他的后续补充