昇思25天学习打卡营第12天|基于MindSpore通过GPT实现情感分类

流淌_

已于 2024-07-05 10:13:50 修改

阅读量313

点赞数 9

文章标签：学习 gpt 分类

于 2024-07-05 10:02:04 首次发布

本文链接：https://blog.csdn.net/randomize0/article/details/140200248

版权

今天是参加昇思25天学习打卡营的第12天，今天打卡的课程是“基于MindSpore通过GPT实现情感分类”，这里做一个简单的分享。

1.简介

今天是LLM原理和实践的第三课，今天学习的目标学习通过GPT实现情感分类的代码。

本次所使用的数据集来自互联网电影资料库（Internet Movie Database，简称IMDb）的电影评论数据，目标是识别电影评论的情感类型：积极的或则消极的，用于训练的数据集标注了评论对应的情感类型。

本次所使用的模型为GPTForSequenceClassification ，是GPT-1中的一个文本分分类模型。

2.实现流程

模型训练的过程主要包括：

数据处理
模型定义
模型训练
模型推理

整个训练过程代码如下：

import os
import numpy as np
import mindspore
from mindspore.dataset import text, GeneratorDataset, transforms
from mindspore import nn
from mindnlp.transformers import GPTTokenizer
from mindnlp.dataset import load_dataset
from mindnlp.transformers import GPTForSequenceClassification
from mindspore.experimental.optim import Adam

from mindnlp._legacy.engine import Trainer, Evaluator
from mindnlp._legacy.engine.callbacks import CheckpointCallback, BestModelCallback
from mindnlp._legacy.metrics import Accuracy

imdb_ds = load_dataset('imdb', split=['train', 'test'])
imdb_train = imdb_ds['train']
imdb_test = imdb_ds['test']

def process_dataset(dataset, tokenizer, max_seq_len=512, batch_size=4, shuffle=False):
    is_ascend = mindspore.get_context('device_target') == 'Ascend'
    def tokenize(text):
        if is_ascend:
            tokenized = tokenizer(text, padding='max_length', truncation=True, max_length=max_seq_len)
        else:
            tokenized = tokenizer(text, truncation=True, max_length=max_seq_len)
        return tokenized['input_ids'], tokenized['attention_mask']

    if shuffle:
        dataset = dataset.shuffle(batch_size)

    # map dataset
    dataset = dataset.map(operations=[tokenize], input_columns="text", output_columns=['input_ids', 'attention_mask'])
    dataset = dataset.map(operations=transforms.TypeCast(mindspore.int32), input_columns="label", output_columns="labels")
    # batch dataset
    if is_ascend:
        dataset = dataset.batch(batch_size)
    else:
        dataset = dataset.padded_batch(batch_size, pad_info={'input_ids': (None, tokenizer.pad_token_id),
                                                             'attention_mask': (None, 0)})

    return dataset
    

# tokenizer
gpt_tokenizer = GPTTokenizer.from_pretrained('openai-gpt')

# add sepcial token: <PAD>
special_tokens_dict = {
    "bos_token": "<bos>",
    "eos_token": "<eos>",
    "pad_token": "<pad>",
}
num_added_toks = gpt_tokenizer.add_special_tokens(special_tokens_dict)

# split train dataset into train and valid datasets
imdb_train, imdb_val = imdb_train.split([0.7, 0.3])

dataset_train = process_dataset(imdb_train, gpt_tokenizer, shuffle=True)
dataset_val = process_dataset(imdb_val, gpt_tokenizer)
dataset_test = process_dataset(imdb_test, gpt_tokenizer)

# set bert config and define parameters for training
model = GPTForSequenceClassification.from_pretrained('openai-gpt', num_labels=2)
model.config.pad_token_id = gpt_tokenizer.pad_token_id
model.resize_token_embeddings(model.config.vocab_size + 3)

optimizer = nn.Adam(model.trainable_params(), learning_rate=2e-5)

metric = Accuracy()

# define callbacks to save checkpoints
ckpoint_cb = CheckpointCallback(save_path='checkpoint', ckpt_name='gpt_imdb_finetune', epochs=1, keep_checkpoint_max=2)
best_model_cb = BestModelCallback(save_path='checkpoint', ckpt_name='gpt_imdb_finetune_best', auto_load=True)

trainer = Trainer(network=model, train_dataset=dataset_train,
                  eval_dataset=dataset_train, metrics=metric,
                  epochs=1, optimizer=optimizer, callbacks=[ckpoint_cb, best_model_cb],
                  jit=False)
                  
trainer.run(tgt_columns="labels")

evaluator = Evaluator(network=model, eval_dataset=dataset_test, metrics=metric)
evaluator.run(tgt_columns="labels")

3.小结

今天学习了在Mindspore环境下，基于GPT-1中的GPTForSequenceClassification模型实现情感分析的代码实现方法，并实用imba的数据对代码进行验证和实践，总体感受来说机器学习在代码层面需要学习的内容其实很少，真正能学以致用的话，一是要深入理解所要解决的问题，二是要分析学习数据集的特征，三是学习模型背后的原理和调整的理论方法，四是要分析训练的数据成果寻找改进的方法。模型训练更像是一个数据工程，而不是一个软件工程问题，从数据出发分析和学习模型更有实际意义。

以上是第12天的学习内容，附上今日打卡记录：
在这里插入图片描述

流淌_

关注

9
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
昇思25天学习打卡营第12天|基于MindSpore通过GPT实现情感分类

今天是LLM原理和实践的第三课，今天学习的目标学习通过GPT实现情感分类的代码。本次所使用的数据集来自互联网电影资料库（Internet Movie Database，简称IMDb）的电影评论数据，目标是识别电影评论的情感类型：积极的或则消极的，用于训练的数据集标注了评论对应的情感类型。本次所使用的模型为，是GPT-1中的一个文本分分类模型。
复制链接

扫一扫