HuggingFace 使用小记

使用HuggingFacedatasets库加载、处理和操作数据

最新推荐文章于 2025-10-17 19:50:21 发布

Aiclin

最新推荐文章于 2025-10-17 19:50:21 发布

阅读量535

点赞数 8

CC 4.0 BY-SA版权

文章标签： pytorch

本文链接：https://blog.csdn.net/newCraftsman/article/details/134740402

本文介绍了如何使用HuggingFacedatasets库加载JSON、文本、CSV等格式的数据文件，对数据进行预处理，如随机洗牌、选择样本和提取唯一值，并演示了如何重命名列。

                    
                    datasets
读取数据（load_dataset）
load_dataset("json", data_files=data_files, field="xxx_field")
数据文件类型：json、text、csv、pandas
数据文件列表：

from datasets import load_dataset

data_files = {"train": "xxx.train.json", "test": "xxx.test.json"}
my_dataset = load_dataset("json", data_files=data_files, field="xxx_field")

处理数据（datasets对象）
shuffleexamples = my_dataset["train"].shuffle(seed=42)
examples["label"][:10]

selectexamples = my_dataset["train"].select([0, 10, 20, 30, 40, 50])
examples = my_dataset["train"].shuffle(seed=42).select([0, 10, 20, 30, 40, 50])

uniqueunique_data = my_dataset["train"].unique("xxx_field")
unique_data_nums = len(unique_data)

rename_columnmy_dataset = my_dataset.rename_column(
	original_column_name=getattr(my_dataset, "xxx_field"), new_column_name="yyy_field"
)