虽然如Qwen和DeepSeek是生成式大语言模型,但它们本质上也是transformer模型。本文将详细介绍如何利用Transformers库来训练这些模型,使其能够高效执行文本分类任务。我们将从基础环境搭建开始,深入探讨代码实现细节。
🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容

模型与环境准备
首先从huggingface上下载Qwen2或者Qwen2.5模型到本地,我这里选择的是0.5或是1.5b大小的模型。DeepSeek开源的其他模型都太大了,只有基于Qwen蒸馏得到的模型较小可以用来训练。所以虽然说的是Qwen/DeepSeek模型,本质上都是Qwen模型。