huggingface transformers loadset 导入本地文件

jieshenai

已于 2023-06-28 20:01:58 修改

阅读量901

点赞数

分类专栏： huggingface 文章标签： transformer

于 2023-06-27 20:03:50 首次发布

本文链接：https://blog.csdn.net/sjxgghg/article/details/131424294

版权

huggingface 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

点击查看 Huggingface详细入门介绍之dataset库

loadset 导入本地文件

import os

from datasets import load_dataset

data_home = r"D:\数据集路径"
#
data_dict = {
    "train": os.path.join(data_home, "train.json"),
    "test": os.path.join(data_home, "test.json"),
}
datasets = load_dataset("json", data_files=data_dict)
print(datasets)
print(datasets["train"][0])

load_dataset("json", data_files=data_dict)

json : 表示导入的本地文件是 json文件

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jieshenai

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

把huggingface/transformers的模型文件下载到本地

Talk Is Cheap

06-14

3068

python代码自动下载模型实现和参数。如果你的网络环境较差，下载模型参数可能会花费较长时间甚至失败。此时可以先将模型下载到本地，然后从本地加载。参考 https://github.com/THUDM/ChatGLM-6B 的README。以chatglm-6b为例，然后运行。先安装Git LFS。

【HuggingFace Transformers】教程（1）--使用AutoClass加载预训练实例

weixin_46481662的博客

10-06

600

由于存在许多不同的Transformer架构，因此为您的检查点（checkpoint）创建一个可能很具有挑战性。作为🤗Transformers核心理念的一部分，使库易于使用、简单和灵活，AutoClass自动推断并从给定的检查点加载正确的架构。from_pretrained()】方法允许您快速加载任何架构的预训练模型生产此类检查点不可知代码意味着，如果您的代码适用于一个检查点，则它将适用于另一个检查点——只要它是为类似的任务进行训练的，即使架构不同。

参与评论您还未登录，请先登录后发表或查看评论

huggingface如何加载本地数据集进行大模型训练

duzm200542901104的专栏

11-14

2177

利用Dataset.from_generator()函数，通过定义一个生成器，就能根据将我们本地自定义的数据转换成大模型需要的任何的格式类型。

从Hugging Face中下载数据集、模型到本地

小张学AI

02-18

4024

从Hugging Face中下载数据集、模型到本地

手动下载huggingface数据集到本地加载

weixin_43013480的博客

05-08

647

但是经常会报连接错误等问题，所以我们可以去huggingface官网下载好数据集，然后直接用数据集路径替换。的数据，手动将data文件夹下的文件全部下载，然后保存在本地一个文件夹中，替换上述的。

【torch】HuggingFace的datasets库中load_dataset方法使用

最新发布

07-26

Streamlit app with HuggingFace transformers and OpenAI models for dessert suggestions

在Huggingface Transformers中使用DeepSpeed加速训练

CheatEngine_jaz的博客

05-07

1万+

在Huggingfac🤗Transformers中使用DeepSpeed加速库

【HuggingFace Transformers】（StackOverflow问答）使用Huggingface Transformers从磁盘加载预训练模型

weixin_46481662的博客

10-07

391

一个指向包含分词器所需词汇文件的目录的路径，例如使用 :func:`~transformers.PreTrainedTokenizer.save_pretrained` 方法保存的目录，例如：``./my_model_directory/``。- （不适用于所有派生类，已弃用）仅当分词器仅需要单个词汇文件（例如Bert，XLNet）时，才适用于指向单个保存的词汇文件的路径或URL，例如：``./my_model_directory/vocab.txt``。

如何下载huggingface的数据集datasets到本地

我的博客

02-11

340

如何下载huggingface的数据集datasets到本地

微软Florence-2模型load_dataset函数加载本地json文件数据集报错

weixin_51074012的博客

06-28

414

以上这种方法，是train数据和validation数据分开的时候的写法，也就是根据这两个字符串去映射各自的文件（记住必须是这两个字符串，不支持自定义，因为他在源码中写死了，train这个字符串只能索引train的数据集文件）。每个字符串后面是一个字典列表也就是你真正得数据集，必须是这三个字符串，他写死了，就是找这三个字符串来分割数据。如果你的数据集是分开的，也就是训练集和验证集是两个json文件，就如下所示，如果不是，请往下翻，有不分开的加载介绍。

解决seaborn.load_dataset()导入数据时报错问题

lnbbbb的博客

07-18

1970

解决sns.load_dataset()导入数据不成功问题

解决seaborn的load_dataset方法导不了数据问题

m0_56122176的博客

10-18

656

seaborn的解决问题

huggingface之datasets将数据集下载到本地

记录科研路上的绊脚石--Ji

03-30

1万+

但是我想放在本地,下载一次不用下载了.虽然他自己可以缓存,但是感觉每次还是重新下载,好像有bug似的.下载数据集使用代理会下载快一点.

torch中datasets.load_dataset用法

zhouwenyuan1015的博客

08-30

8899

转发：https://blog.csdn.net/weixin_49346755/article/details/125284869。

关于load_dataset()方法的使用

ulightm的博客

11-30

2120

初学者对matminer中load方法的使用

【NLP学习笔记】load_dataset加载数据

qq_42961603的博客

07-03

660

除了常见的load_dataset(<hf上的dataset名>)这种方式加载HF上的所有数据外，还有其他custom的选项。

load_dataset方法使用(HuggingFace的datasets库)

qq_39656852的博客

12-04

4544

一些情况下加载数据集的逻辑较为复杂，需要自定义加载方式。如下所示，我们数据处理需要是，每条数据包括两张图片，一个文本。step1: 首先我们先创建一个json文件，把图片和文本对应起来，json文件的格式如下所示step2：创建一个python脚本fill50k.py根据json文件中的对应关系加载图片，python脚本如下所示，这个脚本中定义一个 Fill50k类，并继承，在类中重写。

huggingface transformers

06-28

huggingface transformers 是一个自然语言处理工具包，它提供了各种预训练模型和算法，可以用于文本分类、命名实体识别、机器翻译等任务。它支持多种编程语言，包括Python、Java、JavaScript等，可以方便地集成到...