取决于数据分布与大模型的分布是否相似。
1.只微调模型的最后一层:数据分布与模型相似,只是全连接分类层不同,例如模型可能分成1000类,而我们不需要分成这么多类。
2.微调训练所有层:数据分布与大模型数据分布不一致。
3.从头训练所有层:数据集与大模型完全不一致,只载入模型的结构,权重参数自己训练。例如用显微镜、天文望远镜这种设备拍的图片。
取决于数据分布与大模型的分布是否相似。
1.只微调模型的最后一层:数据分布与模型相似,只是全连接分类层不同,例如模型可能分成1000类,而我们不需要分成这么多类。
2.微调训练所有层:数据分布与大模型数据分布不一致。
3.从头训练所有层:数据集与大模型完全不一致,只载入模型的结构,权重参数自己训练。例如用显微镜、天文望远镜这种设备拍的图片。