训练通用教程-huggingface-datasets
使用datasets构建好数据集后,使用datasets.map方法进行训练。
1. 构建数据集
利用datasets.Datasets.load_from_pandas构建数据集。
import torch
from datasets import Dataset, DatasetDict
import json
import pandas as pd
from config import config
'''
build_datasets: 使用Dataset.from_pandas构建数据集。
load_datasets: 返回训练或者测试数据集。
label_to_id: pandas.map使用的转换函数。
save_to_disk: 使用DatasetDict.save_to_disk函数保存到磁盘。
'''
class Datasets:
def __init__(self):
self.train_datasets = self.build_datasets(config.train_data_file)
self.valid_datasets = self.build_datasets(config.valid_data_file)
self.datasets_dict = DatasetDict({
'train': self.train_datasets, 'valid': self.valid_datasets})
def build_datasets(self, file_path):
# 保存token序列
text_list = []
# 保存label序列
label_list = []
datasets = pd.DataFrame()
with open(file_path, 'r', encoding='utf-8') as f:
lines