from datasets import load_dataset
from pprint import pprint
import datasets
from datasets import load_from_disk
读取事先下载好的数据集(因为网络问题,选择了提前下载)
# 只取了训练集的部分做演示
dataset = load_from_disk('../data/ChnSentiCorp')
dataset = dataset['train']
部分样例展示:
# 部分样例
for i in range(3):
print(dataset[i])
运行结果:
对数据进行打乱(shuffle):
# 打乱数据顺序
dataset = dataset.shuffle