Huggingface入门篇 II (QA)

最新推荐文章于 2024-07-21 15:51:16 发布

SCHLAU_tono

最新推荐文章于 2024-07-21 15:51:16 发布

阅读量1.7k

点赞数

分类专栏： NLP Machine Learning HuggingFace 文章标签：深度学习 python 人工智能

本文链接：https://blog.csdn.net/qq_40899248/article/details/126047495

版权

1 任务介绍和前期准备

任务的背景如下

本次任务使用了MRQA-shared-task中的train和dev数据，其中包含了常见的QA数据库，例如SQuAD，NewsQA，SearchQA，HotpotQA等。
预训练模型是huawei-noah/TinyBERT_General_6L_768D
训练数据集是HotpotQA。
运行环境 Google Colab （Pro）详细性能配置可以见本文章
Model的运行代码

1.1 下载第三方库

安装Transformer和Huggingface

!pip install transformers
!pip install datasets
!pip install huggingface_hub

所使用的第三方类

import torch
from torch.utils.data import DataLoader
from transformers import AutoTokenizer, AutoModelForQuestionAnswering, AdamW, get_scheduler
from datasets import load_dataset, Dataset, DatasetDict, load_metric
from tqdm import tqdm
from sklearn.metrics import accuracy_score, f1_score
from matplotlib import pyplot as plt
import pandas as pd
import gzip
import json
import numpy as np
import os

加载与预训练的模型和tokenizer，此处使用的args是一个包含训练参数的字典，这里的配置也是得到本次任务最佳模型的训练参数:

args={
   
    "DATASET_PATHS":[{
   
      "TRAIN":"datasets/train/HotpotQA.jsonl.gz",
      "IN_DOMAIN_DEV":"datasets/in_domain_dev/HotpotQA.jsonl.gz",
      "OUT_DOMAIN_DEV":"datasets/out_domain_dev/HotpotQA.jsonl.gz",
    }],
    'MODEL':'huawei-noah/TinyBERT_General_6L_768D',
    'EPOCHS': 5,
    'VAL_BATCH_SIZE':16,
    'TRAINING_BATCH_SIZE':16,
    'LEARNING_RATE':2e-5,
    'MAX_SIZE':256,
}
args['DEVICE'] = torch.device('cuda')

model = AutoModelForQuestionAnswering.from_pretrained(args.get('MODEL')).to(args.get('device'))
tokenizer=AutoTokenizer.from_pretrained(args.get('MODEL'))

1.2 从sharetask中下载数据

在这次的sharetask¹中，作者准备好了自动下载所有训练数据据的脚本，我们只需要将该仓库克隆到Colab中，然后再运行该脚本即可:

!git clone https://github.com/mrqa/MRQA-Shared-Task-2019.git
!bash MRQA-Shared-Task-2019/download_train.sh 'datasets/train'
!bash MRQA-Shared-Task-2019/download_in_domain_dev.sh 'datasets/in_domain_dev'
!bash MRQA-Shared-Task-2019/download_in_domain_dev.sh 'datasets/out_domain_dev'

1.3 加载原始数据

下载完成后，文件树如下，可以观察到各个数据集是jsonl格式的文档的gz格式压缩。
在这里插入图片描述
先将gz文件用gzip打开，然后用json.load读取每个文件:

  def read(self,file_path):
    rawdata = []
    with gzip.open(file_path, 'rb') as myzip:
        for example in myzip:
            context = json.loads(example)
            if 'header' in context:
                continue
            rawdata.append(context)
    return rawdata

读取后的结果是一个字典的list，每个字典的结构包括 dict_keys(['id', 'context', 'qas', 'context_tokens'])。读取完原始数据之后，由于本次是QA任务，所以只需要以下三个key的内容²：