S2ORC的GitHub上给出了下载地址,但是要去Semantic Scholar上去下,还要写代码调API。
找了半天想着有没有现成的,没找到,还是得用API去下。
1. 需要申请个Semantic Scholar的API key先
去Semantic Schloar官网,点Request an API Key。
填个表。
等半天吧,我是昨晚申,今天中午收到的。
2. 用下面这套代码,把你的S2 API Key换上去
import requests
import json
# 获取最新的release的数据集版本
latest_release = requests.get("http://api.semanticscholar.org/datasets/v1/release/latest").json()
# 查看有那些数据集可以下载,这里不止可以下s2orc还有其他几个,也可以通过这种途径下载,包括:
# abstracts
# authors
# citations
# embeddings-specter_v1
# embeddings-specter_v2
# paper-ids
# papers
# publication-venues
# s2orc
# tldrs
print("\n".join(d['name'] for d in latest_release['datasets']))
# 把网址里面的dataset/s2orc换成其他的上面的数据集名字,也可以下其他的。X-API-KEY是我胡乱打的,把你的API KEY 换上去
r1 = requests.get('https://api.semanticscholar.org/datasets/v1/release/latest/dataset/s2orc', headers={'X-API-KEY':"HUIHICUEHCUI6wnzFRiojoibBy1DcnvnnN"}).json()
print(json.dumps(r1, indent=2))
然后就把网址打印出来了,点击下载就行了。