定义:
在训练LORA(Low-Rank Adaptation)时,正则化是用来防止模型过拟合的一种技术,确保模型能够泛化到新的、未见过的数据集。在训练过程中,正则化通过约束模型的复杂性,迫使模型学习到更为通用的特征,而不是仅仅记住训练集中的细节。
Ⅰ常见的方法:
- L2 正则化(权重衰减)
L2 正则化通过惩罚模型中的权重,使其不至于变得过大。通常会在损失函数中加入一个与权重平方和成正比的项
这种正则化方法帮助模型避免过度依赖某些特定的特征,从而提升其泛化能力
- L1 正则化
L1 正则化通过惩罚模型的权重,使一些权重变为零,从而实现特征选择。相对于L2正则化,L1可以使模型更加稀疏
对于某些任务,L1正则化有助于筛选出对模型预测最重要的特征
- 3Dropout
Dropout是一种在训练过程中随机丢弃神经网络中的一部分神经元的方法。这样,模型无法依赖于某些特定的神经元,从而提高其泛化能力。
在训练LORA时,可能会使用Dropout来减轻过拟合的风险
- 数据增强
虽然数据增强本身不是传统意义上的正则化,但它也有类似的效果。通过对训练数据进行旋转、缩放、裁剪等变换,可以生成更多的变种数据,这样训练模型时,能够让模型更好地适应不同的输入模式
- 梯度裁剪
梯度裁剪通过对梯度进行限制,防止梯度过大造成的训练不稳定。它也是一种间接的正则化技术,有助于控制过拟合
- 权重稀疏性正则化
这类正则化方法通过限制网络的稀疏度,迫使模型在某些区域保持更为简洁的结构,从而避免模型复杂度过高
Ⅱ正则化的作用:
Ⅲ使用方式:
1.数据集数量比例:
一般情况下,正则化数据集的大小应为训练集的 1:1 至 1:10。具体比例取决于训练集的规模和任务复杂性。过少的正则化数据集可能效果不明显,过多则可能让正则化的效果过度影响主训练目标。
2.风格选择要求:
可以使用不同风格的图集,但需要确保其对训练目标有正面影响。
正则化数据集不应与主训练数据集的特征冲突,最好在风格或类型上有所补充,而不是简单的复制。若是风格上有差异,正则化集应提供额外的信息(如背景、光照、特定的变换等),而不是完全改变数据风格。
Ⅳ正则化数据集的使用总结:
数量比例:一般为训练数据集的 1:1 到 1:10,根据任务的复杂性进行调整。
风格差异:确保风格差异适中,避免过大差异引发过拟合。
超参数调整:调整正则化强度与学习率等超参数,确保正则化不影响模型的主学习目标。
影响:正则化数据集的增加通常能提升泛化能力,但过多会影响训练效果,特别是模型可能会偏向于正则化数据集的特征。