训练通用教程-huggingface-datasets

训练通用教程-huggingface-datasets

使用datasets构建好数据集后,使用datasets.map方法进行训练。

1. 构建数据集

利用datasets.Datasets.load_from_pandas构建数据集。

import torch
from datasets import Dataset, DatasetDict
import json
import pandas as pd
from config import config

'''
build_datasets: 使用Dataset.from_pandas构建数据集。
load_datasets: 返回训练或者测试数据集。
label_to_id: pandas.map使用的转换函数。
save_to_disk: 使用DatasetDict.save_to_disk函数保存到磁盘。

'''

class Datasets:
    def __init__(self):
        self.train_datasets = self.build_datasets(config.train_data_file)
        self.valid_datasets = self.build_datasets(config.valid_data_file)
        self.datasets_dict = DatasetDict({
   'train': self.train_datasets, 'valid': self.valid_datasets})

    def build_datasets(self, file_path):
        # 保存token序列
        text_list = []
        # 保存label序列
        label_list = []
        datasets = pd.DataFrame()
        with open(file_path, 'r', encoding='utf-8') as f:
            lines 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值