【Hugging Face】数据集的使用

最新推荐文章于 2024-05-15 00:35:53 发布

小码哥爱分享

最新推荐文章于 2024-05-15 00:35:53 发布

阅读量284

点赞数 3

分类专栏： Hugging Face 文章标签： nlp python

本文链接：https://blog.csdn.net/2301_79817021/article/details/133563247

版权

from datasets import load_dataset
from pprint import pprint
import datasets
from datasets import load_from_disk

读取事先下载好的数据集(因为网络问题，选择了提前下载)

# 只取了训练集的部分做演示
dataset = load_from_disk('../data/ChnSentiCorp')
dataset = dataset['train']

部分样例展示：

# 部分样例
for i in range(3):
    print(dataset[i])

运行结果：
在这里插入图片描述
对数据进行打乱(shuffle)：

# 打乱数据顺序
dataset = dataset.shuffle

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小码哥爱分享

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Hugging Face】数据集的使用

hugging face中数据集的简单使用
复制链接

扫一扫

专栏目录

NLP（六十二）HuggingFace中的Datasets使用

山阴少年

07-24

4632

本文可作为dataset库的入门，详细介绍了数据集的各种操作，这样方便后续进行模型训练。

深度学习：huggingface简单介绍---常用函数（数据集处理+dict+model），简单使用（tokenzier + model），简单例子(中文分类+中文填空+中文句子关系推断)

qq_41298763的博客

08-23

3439

huggingface是一个开源社区，它提供了先进的NLP模型，数据集、以及其它便利工具。huggingface提供的模型非常多，但主要的模型为：自回归： GPT2 Trasnformer-XL XLNet自编码： BERT ALBERT RoBERTa ELECTRA自回归模型：预测下一个词，因为使用x获取y叫做回归，所有x预测下一个x称为自回归自编码模型：还原出本身，根据上下为还原出本身的词Seq2Seq: 从一个文本序列到另一个序列，比如机器翻译。

参与评论您还未登录，请先登录后发表或查看评论

huggingface datasets离线加载文件的解决方案

最新发布

weixin_39818775的博客

05-15

1702

Hugging Face Datasets是一个用于加载和处理自然语言处理（NLP）和计算机视觉（CV）数据集的库。它提供了一种统一的API来访问各种数据集，包括来自Hugging Face Hub、本地文件和远程URL。然而，在离线环境中，直接从远程URL加载数据集可能无法实现。为了解决这个问题，Hugging Face Datasets提供了离线加载文件的解决方案，允许用户从本地文件加载数据集。

HuggingFace学习笔记--datasets的使用

牵一只蜗牛去散步

11-27

1959

1--datasets的使用。1--datasets的使用。1-3--打乱和排序数据集。1-4--选择和筛选数据集。1-1--加载数据集。1-2--查看数据集。1-5--划分数据集。1-6--修改数据集。1-7--导出数据集。

huggingface下载的.arrow数据集读取与使用说明

阿旭的博客

04-25

9724

huggingface下载的arrow数据集读取与使用说明

训练数据集处理

qwer123456u的博客

04-27

1560

训练数据集处理

数据集资源0000000000

11-18

1. Hugging Face 的数据下载方式：用户可以通过访问 Hugging Face 官网，选择想要下载的数据集，然后使用 Git 命令行工具下载数据集。 2. 魔塔社区的数据下载方式：用户可以通过访问魔塔社区官网，选择想要下载的...

数据集下载渠道00000

10-29

Hugging Face 是一个开源的 transformers 库，提供了大量的数据集供用户下载。用户可以通过 git 命令下载相应的数据集，例如： git lfs install git clone https://huggingface.co/datasets/数据名称 2. 魔塔社区...

T5-数据集

03-30

在处理这些.txt文件时，我们需要使用合适的工具或库，比如Hugging Face的Transformers库，它可以轻松地加载和处理T5数据集。同时，为了提高效率，我们可能需要利用分布式训练技术，如数据并行或模型并行。总的来说...

notebooks:使用Hugging Face库的笔记本:hugging_face:

03-21

这通常涉及定义一个数据集，构建一个训练循环，并使用`Trainer`类来训练模型。 7. **评估与预测**: 微调完成后，可以使用测试集评估模型性能，或者对新输入进行预测。Hugging Face库提供了方便的方法来执行这些操作...

自然语言处理，中英互译数据集

04-29

为了充分利用这个数据集，开发者需要具备Python编程能力，熟悉NLP相关的库，如TensorFlow、PyTorch或Hugging Face的Transformers库。同时，了解如何处理文本数据、预处理步骤（如分词、去除停用词、词向量化）以及...

huggingface下载并加载本地数据集

lishijie258的博客

04-24

2497

如to_csv、to_pandas、to_dict、to_json等。下载至当前页面的opus100文件夹下。下载后的文件如图所示。

HuggingFace简明教程

weixin_44748589的博客

08-16

1万+

什么是huggingface？huggingface是一个开源社区，它提供了先进的NLP模型，数据集，以及其他便利的工具。这些数据集可以根据任务、语言等来分类官方文档：主要的模型：自回归：GPT2、Transformer-XL、XLNet自编码：BERT、ALBERT、RoBERTa、ELECTRA安装环境：前置环境：python、pytorch安装#安装transformers#pip安装#conda安装#安装datasets#pip安装#conda安装。......

HuggingFace实战（一）

weixin_44748589的博客

08-17

2290

代码】HuggingFace实战（一）

Transformers实战——使用本地数据进行AclImdb情感分类

HMT的博客

04-01

3499

使用本地数据进行AclImdb情感分类

Hugging Face快速入门（重点讲解模型(Transformers)和数据集部分(Datasets)）

热门推荐

zhaohongfei_358的博客

08-08

5万+

1. Hugging Face是什么，提供了哪些内容 2. Hugging Face模型的使用（Transformer类库） 3. Hugging Face数据集的使用（Datasets类库）

HuggingFace - 简明教程

编码时光

02-20

1万+

本文学习自：视频：https://www.bilibili.com/video/BV1a44y1H7Jc 源码：https://github.com/lansinuote/Huggingface_Toturials 文章目录

Datawhale组队学习NLP_Bert多项选择学习笔记

weixin_43634785的博客

08-31

623

任务：多项选择 数据集：SWAG 在四个选项中决定最合理的延续，相当于阅读理解 数据集中的每个示例都有一个上下文，它是由第一个句子(字段sent1)和第二个句子的简介(字段sent2)组成。然后给出四种可能的结尾(字段ending0， ending1， ending2和ending3)，然后让模型从中选择正确的一个(由字段label表示)。 数据集的样子： {'ending0': 'passes by walking down the street playing their instruments.',

hugging face下载数据集

05-24

要下载 Hugging Face 上的数据集，可以使用以下步骤： 1. 首先安装 Hugging Face 的 Transformers 库。可以通过 pip 安装： ``` pip install transformers ``` 2. 接下来，可以使用 `datasets` 模块来下载数据集。例如，要下载 IMDb 数据集，可以使用以下代码： ```python from datasets import load_dataset dataset = load_dataset('imdb') ``` 这将从 Hugging Face 下载 IMDb 数据集并将其存储在 `dataset` 变量中。请注意，不是所有数据集都在 Hugging Face 上都可用。您可以在 Hugging Face 数据集页面上查找可用的数据集：https://huggingface.co/datasets

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交