huggingface的load_dataset()函数

不当菜鸡的程序媛

已于 2024-05-24 17:04:13 修改

阅读量732

点赞数 2

分类专栏：学习记录文章标签：人工智能机器学习深度学习

于 2024-05-24 17:02:08 首次发布

本文链接：https://blog.csdn.net/vivi_cin/article/details/139179202

版权

学习记录专栏收录该内容

105 篇文章 0 订阅

订阅专栏

第一种：从huggingface官网加载：

from datasets import load_dataset
dataset = load_dataset(path='squad', split='train')

path等于相关数据集的名字就能下载并加载相关数据集

第二种：从本地加载数据集

用path参数指定数据集格式

json格式，path="json"
csv格式， path="csv"
纯文本格式, path="text"
dataframe格式， path="panda"
图片，path="imagefolder"
然后用data_files指定文件名称，data_files可以是字符串，列表或者字典，data_dir指定数据集目录。如下case：

from datasets import load_dataset
dataset = load_dataset('csv', data_files='my_file.csv')
dataset = load_dataset('csv', data_files=['my_file_1.csv', 'my_file_2.csv', 'my_file_3.csv'])
dataset = load_dataset('csv', data_files={'train':['my_train_file_1.csv','my_train_file_2.csv'],'test': 'my_test_file.csv'})

Tips:

huggingface的load_dataset()函数返回的数据是字典类型的dataset

形如：

Dataset({
    features: ['label', 'text'],
    num_rows: 100
})

取数据用：

dataset["input_ids"]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不当菜鸡的程序媛

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

huggingface datasets离线加载文件的解决方案

weixin_43178406的博客

08-22

5万+

本文主要介绍了huggingface datasets离线加载文件的解决方案，希望能对使用python huggingface datasets的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

基于huggingface模型训练的数据处理(load_dataset、.map、concatenate_datasets、train_test_split，data_loader)

weixin_38252409的博客

08-15

178

本文主要介绍如何基于huggingface训练模式构造LLM自己的数据，类似torch的dataset方式来构建。本文给出大语言模型处理的loss标准与数据和标签结构，也调用huggingface的数据处理库，包含load_dataset载入数据、dataset.map映射数据、concatenate_datasets连接数据、train_test_split分割数据，以及如何构建类似torch的loader方式中的collate_fn函数，最终使用llama3构建了完整demo供读者参考。

参与评论您还未登录，请先登录后发表或查看评论

huggingface的数据集加载方式

wentinghappyday的博客

09-12

2005

大模型数据集加载方式汇总笔记

datasets中load_dataset函数学习

不止学习

09-03

1157

path（str）：数据集的路径或名称。例如，“glue”、“squad”、“‘username/dataset_name’”，HF hub上的一个数据集存储库，其中包含一个数据集脚本“dataset_name.py”。-> 根据目录内容加载一个通用的数据集构建器（csv、json、text等），例如“”/路径/to/directory/带/my/csv/data“”。-> 从数据集脚本中加载数据集构建器，例如，‘./dataset/squad’ 或 ‘./dataset/squad/squad.py’。

【torch】HuggingFace的datasets库中load_dataset方法使用

orangerfun的博客

07-26

3万+

一些情况下加载数据集的逻辑较为复杂，需要自定义加载方式。比如训练ControlNet时，输入有原始图片，边缘图，以及prompt，这时候我们就需要通过在图片所在的目录下写一个python脚本来处理数据加载方式。如下所示，我们数据处理需要是，每条数据包括两张图片，一个文本。step1: 首先我们先创建一个json文件，把图片和文本对应起来，json文件的格式如下所示step2：创建一个python脚本fill50k.py根据json文件中的对应关系加载图片，python脚本如下所示，这个脚本中定义一个。

【HuggingFace文档学习】datasets库加载数据

micah_yaokunkun的博客

10-24

2958

我只需要记住几行模板，而后便能轻松加载各类模型和数据，不会将大把时间浪费在查看浩如烟海的API或者接口文档上。：这是最常见的使用方式，只需要提供数据集的名称即可，在能正常访问huggingface的情况下简单易行。库是Hugging Face平台的，用于轻松访问和共享用于音频、计算机视觉和自然语言处理任务的数据集的库。然而学校的服务器因某种原因，不能在代码中远程访问huggingface，因而整个程序便会卡在这行代码。它们将各式各样的模型和数据，在格式上和加载方式上实现了规范统一。最终得以过了这一关。

load_dataset方法使用(HuggingFace的datasets库)

qq_39656852的博客

12-04

4544

一些情况下加载数据集的逻辑较为复杂，需要自定义加载方式。如下所示，我们数据处理需要是，每条数据包括两张图片，一个文本。step1: 首先我们先创建一个json文件，把图片和文本对应起来，json文件的格式如下所示step2：创建一个python脚本fill50k.py根据json文件中的对应关系加载图片，python脚本如下所示，这个脚本中定义一个 Fill50k类，并继承，在类中重写。

datasets load_dataset函数

weixin_49346755的博客

06-14

3万+

函数说明 load_dataset函数从Hugging Face Hub或者本地数据集文件中加载一个数据集。可以通过 https://huggingface.co/datasets 或者datasets.list_datasets()函数来获取所有可用的数据集。参数path表示数据集的名字或者路径。可以是一个数据集的名字，比如"imdb"、“glue”；也可以是通用的产生数据集文件的脚本，比如"json"、“csv”、“parquet”、“text”；或者是在数据集目录中的脚本（.py)文件，比如“glue

第六章：huggingface的_inner_training_loop源码与流程解读

weixin_38252409的博客

06-14

133

大模型基本使用huggingface来实现。对于不太理解其内容基本按照官网教程或相关博客等来实现。想进一步激发开源大模型在行业领域提升性能是棘手问题。该问题会涉及开源代码二次开发进行实验测试。基于此，本教程不同文字或理论介绍内容，而从源码解读其训练逻辑、权重保存、高效微调方法(LoRA)、断点续训方法、模型推理权重处理等方法。本教程所有内容完全依托huggingface源码与相关Demo验证来解读，助力大模型使用。

深入浅出 Dataset 与 DataLoader

这里是Mae。

04-05

2255

详细介绍Dataset 与 DataLoader。

第十四节 huggingface的trainner的_inner_training_loop函数源码解读

weixin_38252409的博客

05-15

349

在huggingface中，有关trainer内容实在太多了，我将布局6篇文章来构建有关内容。第一篇文章介绍参数；第二篇文章给出一个完整Demo，并介绍trainner源码的整体结构，呈现一个整体框架；第三篇文章介绍给出数据构造、优化器构建方法源码解读；第四篇篇文章介绍epoch外循环训练相关源码解读；第五篇文章介绍step内循环训练相关源码解读；第六篇文章介绍Resume方法内容，包含继承数据、继承优化器、继承模型等实现完整断点续训功能。而本篇为第三篇文章，主要解读优化器与数据相关源码内容。

lr_utils load_dataset 和 datasets

01-07

coursera的吴恩达的课编程练习所需的所需包和数据，可以方便学员自己在本地练习

Huggingface入门篇 II (QA)

Blog Tim J Lebers

08-04

1853

初步接触sharetask，以及简单的QA任务，上传huggingface模型

HuggingFace Datasets来写一个数据加载脚本

qq_42388742的博客

03-02

1万+

HuggingFace Datasets上传本地文件作为训练数据这两天用自己的数据来做训练，看到datasets库中的教程，进行翻译，记下如何使用本地/私有数据集。文章目录HuggingFace Datasets上传本地文件作为训练数据前言编写数据集加载脚本（Writing a dataset loading script）添加数据集元数据（Adding dataset metadata）下载数据文件并组织拆分(Downloading data files and organizing splits)在

关于load_dataset()方法的使用

ulightm的博客

11-30

2120

初学者对matminer中load方法的使用

torch中datasets.load_dataset用法

zhouwenyuan1015的博客

08-30

8899

转发：https://blog.csdn.net/weixin_49346755/article/details/125284869。

PyTorch基础之数据模块Dataset、DataLoader用法详解（附源码）

showswoller的博客

04-29

6725

PyTorch基础之数据模块Dataset、DataLoader用法详解（附源码）

Hugging Face快速入门（重点讲解模型(Transformers)和数据集部分(Datasets)）