问题:从huggingface上下载数据集时出现连接错误的问题,huggingface网站可以正常打开,vpn无论是打开还是关闭都出现连接错误的问题,报错信息如下图所示:
报错代码为:
from datasets import load_dataset
# 下载数据集
dataset = load_dataset("SetFit/sst2", split="train")
# 将数据集保存到本地
dataset.save_to_disk("D:/data/SST-2/train.csv")
尝试了很多办法,没能下载下来,后来直接下载了数据集对应的jsonl文件,转成csv文件使用:
下载了如图的几个文件:
将jsonl文件转为csv文件,保存到本地:
import json
import csv
def extract_text_and_labels(jsonl_file, csv_file):
# 打开JSONL文件和CSV文件
with open(jsonl_file, 'r') as jsonl, open(csv_file, 'w', newline='') as csvf:
writer = csv.writer(csvf)
# 写入CSV文件的表头
writer.writerow(['sentence', 'label'])
# 读取JSONL文件每一行并提取文本和标签数据写入CSV文件
for line in jsonl:
json_obj = json.loads(line)
sentence = json_obj['text'] # 假设"text"字段表示文本数据
label = json_obj['label'] # 假设"label"字段表示标签数据
writer.writerow([sentence, label])
# 调用函数进行数据提取和保存
extract_text_and_labels('D:/data/SST-2/dev.jsonl', 'D:/data/SST-2/validation.csv')