通常我们在代码中使用huggingface的datasets下载文件(数据集/模型),都会因为网络问题报SSL error啥的。
今天就我使用datasets的流程做一下记录
第一步,安装datasets
pip install datasets -i https://pypi.tuna.tsinghua.edu.cn/simple
第二步,前往pycharm中配置HTTP代理,如下图
第三步,我们就可以在代码中直接使用了,这里我使用的是dialogstudio提供的MULTIWOZ2_2数据集,并输出dataset的格式
import datasets
import os
# 配置代理
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'
dataset = datasets.load_dataset('Salesforce/dialogstudio', 'MULTIWOZ2_2')
print(dataset.map())
输出结果如下