
搞懂大模型Fine-tuning - 预训练和微调(Pre-training vs Fine-tuning)
LLM训练三部曲:预训练(Pre-training)、有监督微调(Supervised Fine-Tuning, SFT)以及基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。预训练(Pre-training)是预先在大量数据上训练模型以学习通用特征,而微调(Fine-tuning)是在特定任务的小数据集上微调预训练模型以优化性能。




















