大模型微调七步法:让模型更懂你

前言

近年来,自然语言处理 (NLP) 领域取得了重大进展,这主要得益于 OpenAI 的 GPT 系列等大型语言模型 (LLM) 的涌现。这些强大的模型彻底改变了我们处理自然语言任务的方式,在机器翻译、情感分析和自动文本生成等方面取得了突破性进展。由此催生了大量与自然语言处理相关的 AI 初创团队和产品。

然而,尽管大模型展现出强大的能力,其训练成本却极其高昂。2017 年,训练 Transformer 模型需要约 900 美元。2019 年发布的 RoBERTa Large 模型训练成本约为 160,000 美元。2023 年,OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的训练成本将分别高达 7800 万美元和 1.91 亿美元。

在这里插入图片描述

从上图可以看出,随着时间的推移,模型的规模不断增长训练成本也随之水涨船高,已经超出了大多数普通公司和团队的承受能力。因此,对于大多数 AI 初创团队来说,通过微调预训练模型使其更加适用于特定应用或领域是更为经济实惠且可行的选择。

本文将大模型的微调分为 7 个简单步骤,以便让大家对微调大模型有一个直观的认识。

第1步:明确我们的具体目标

假如我们要训练一个语言模型,让它能够推断我们的用户输入的文本的情感。例如中性,正面,负面。

第2步:选择一个预训练模型,并准备好微调的数据集

目前有许许多多开源的预训练模型,我们需要了解它们的特点从中选择一个合适的模型,并准备好我们的微调数据集。

作为测试,我们选择了GPT2模型,并且使用Hugging Face上开源的数据集。实际业务中,微调用的数据集往往需要AI团队投入大量时间和精力进行准备。

第3步:加载微调数据集

由于我们使用的是Hugging Face开源的数据集,所以直接调用接口加载就可以了。

import pandas as pd  
from datasets import load_dataset
# 导入数据集  
dataset = load_dataset("mteb/tweet_sentiment_extraction")  
df = pd.DataFrame(dataset['train']) 

接下来,我们打印数据集的部分内容

df.head(10)

第4步:加载分词器

由于大型语言模型 (LLM) 处理的是token而不是单词,因此我们需要一个分词器将数据发送到模型。

from transformers import GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")  
tokenizer.pad_token = tokenizer.eos_token  
def tokenize_function(examples):  
   return tokenizer(examples["text"], padding="max_length", truncation=True)  

tokenized_datasets = dataset.map(tokenize_function, batched=True)  
df1= pd.DataFrame(tokenized_datasets["train"])  
df1.head(10)

为了提高我们的处理性能,生成了两个较小的子集。

small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))  
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

第5步:初始化基础模型

我们选择的基础模型是GPT2,调用相关方法进行初始化即可。

from transformers import GPT2ForSequenceClassification
#初始化基础模型  
model = GPT2ForSequenceClassification.from_pretrained("gpt2", num_labels=3)

第6步:定义评估函数

在开始实际训练之前,我们需要定义一个函数来评估微调后的模型。

import evaluate
import numpy as np

metric = evaluate.load("accuracy")  
def compute_metrics(eval_pred):  
   logits, labels = eval_pred  
   predictions = np.argmax(logits, axis=-1)  
   return metric.compute(predictions=predictions, references=labels)

第7步:训练(微调)并评估

最后一步是训练(微调)模型,调用trainer.train()即可。

training_args = TrainingArguments(  
   output_dir="test_trainer",  
   #evaluation_strategy="epoch",  
   per_device_train_batch_size=1,  
   per_device_eval_batch_size=1,    
   gradient_accumulation_steps=4  
   )  
trainer = Trainer(  
   model=model,  
   args=training_args,  
   train_dataset=small_train_dataset,  #训练集
   eval_dataset=small_eval_dataset,    #测试集
   compute_metrics=compute_metrics,    #评估函数
  
)  
trainer.train()

接下来就可以使用评估函数,对微调的结果进行评估。

trainer.evaluate()

结尾

通过上面的例子我们可以看到对大模型进行微调的过程并不复杂。我们可以根据特定业务需求准备相应数据集,并选择合适的大模型进行适配,使模型更好地应用于特定业务场景中。通过微调,我们可以显著提升大模型在特定任务上的性能,并降低训练成本,这对于大多数 AI 初创团队和中小型企业来说都是一个更经济实惠且可行的选择。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值