python-torch如何保存数据集，以yelp_review_full数据集为例

最新推荐文章于 2024-03-17 10:30:26 发布

liwulin0506

最新推荐文章于 2024-03-17 10:30:26 发布

阅读量973

点赞数

分类专栏： python tranformers pytorch 文章标签： python 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60688978/article/details/132363970

版权

python 同时被 3 个专栏收录

55 篇文章 2 订阅

订阅专栏

41 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

方法一

先自动下载，然后使用save_to_disk保存到本地

dataset = load_dataset("yelp_review_full")
dataset.save_to_disk('./yelp_review_full_disk')

使用的时候如下操作即可

dataset=datasets.load_from_disk("./csdn/ddset/yelp_review_full")

方法二

先自动下载

dataset = load_dataset("yelp_review_full")

执行完了以后，会在路径/home/xxxuser/.cache/huggingface/datasets/yelp_review_full/yelp_review_full/1.0.0/e8e18e19d7be9e75642fc66b198abadb116f73599ec89a69ba5dd8d1e57ba0bf中保存

-rw-r----- 1 1user ma-group       1786 Aug 18 14:29 dataset_info.json
-rw-r----- 1 1user ma-group   37282608 Aug 18 14:29 yelp_review_full-test.arrow
-rw-r----- 1 1user ma-group  483954656 Aug 18 14:29 yelp_review_full-train.arrow

上面这是三个文件就是我们需要的，可以使用下面方法使用数据集

from torch.utils.data import Dataset, DataLoader
import pyarrow as pa

class YelpReviewFullDataset(Dataset):
    def __init__(self, file_path):
        self.data = pa.parquet.read_table(file_path).to_pandas()

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data.iloc[idx]

train_dataset = YelpReviewFullDataset('./csdn/ddset/yelp_review_full/yelp_review_full-train.arrow')
test_dataset = YelpReviewFullDataset('./csdn/ddset/yelp_review_full/yelp_review_full-test.arrow')

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python-torch如何保存数据集，以yelp_review_full数据集为例

python-torch如何保存数据集，以yelp_review_full数据集为例
复制链接

扫一扫

专栏目录

liwulin0506 CSDN认证博客专家 CSDN认证企业博客

码龄3年

337: 原创

1万+: 周排名

8443: 总排名

19万+: 访问

: 等级

3972: 积分

816: 粉丝

519: 获赞

17: 评论

542: 收藏

私信

关注

热门文章

分类专栏

python 55篇
jupyter notebook 1篇
pytorch 41篇
java 96篇
javafx 40篇
unity 12篇
unity2d 9篇
常用工具
aseprite 1篇
excel 2篇
poi 2篇
二开笔记 4篇
php 5篇
npm 1篇
tranformers 6篇
piplines 1篇
health 1篇
常见报错 1篇
杂项 1篇
git 1篇
java辅助 4篇
python报错 2篇
idea 1篇
java设计模式 1篇
JAVA-DJL 2篇

最新评论

python-pytorch使用日志0.5.049
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。
python-pytorch 下批量seq2seq+Bahdanau Attention实现问答1.0.000
ha_lydms: 给作者大大点赞！这是一篇优质好文，对我学习又有了信道帮助哦，复习好物，三连值得，内容详细易懂
java-jna-hook代码
qq_41201439: 大佬，要导入哪些依赖包
python-pytorch 利用word2vec实现lstm模型预测中文文本输出0.1.00
ha_lydms: 这篇博客的内容总是能够触动我的内心深处，让我对于人生有了更深层次的思考和体验。
python-pytorch关于next和iter使用时没有效果的笔记
ha_lydms: 我很喜欢作者的文笔，每次阅读都能够让我沉浸其中，忘记时间流逝。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。