找到datasets.load_dataset(),将路径改成本地路径:
datasets.load_dataset("/data/yangl/vec2text/Tevatron/msmarco-passage-corpus")
找到本地路径处理数据集的py文件,可以将 _DATASET_URLS 中的网址改成本地路径!!DONE!!
_DATASET_URLS = {
'train': "/data/yangl/vec2text/Tevatron/msmarco-passage-corpus/corpus.jsonl.gz",
}