如何下载S2ORC数据集

S2ORC的GitHub上给出了下载地址,但是要去Semantic Scholar上去下,还要写代码调API。

找了半天想着有没有现成的,没找到,还是得用API去下。

1. 需要申请个Semantic Scholar的API key先

去Semantic Schloar官网,点Request an API Key。

填个表。

 

等半天吧,我是昨晚申,今天中午收到的。

 2. 用下面这套代码,把你的S2 API Key换上去
import requests
import json
# 获取最新的release的数据集版本
latest_release = requests.get("http://api.semanticscholar.org/datasets/v1/release/latest").json()
# 查看有那些数据集可以下载,这里不止可以下s2orc还有其他几个,也可以通过这种途径下载,包括:
# abstracts
# authors
# citations
# embeddings-specter_v1
# embeddings-specter_v2
# paper-ids
# papers
# publication-venues
# s2orc
# tldrs
print("\n".join(d['name'] for d in latest_release['datasets']))
# 把网址里面的dataset/s2orc换成其他的上面的数据集名字,也可以下其他的。X-API-KEY是我胡乱打的,把你的API KEY 换上去
r1 = requests.get('https://api.semanticscholar.org/datasets/v1/release/latest/dataset/s2orc', headers={'X-API-KEY':"HUIHICUEHCUI6wnzFRiojoibBy1DcnvnnN"}).json()
print(json.dumps(r1, indent=2))

然后就把网址打印出来了,点击下载就行了。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值