R语言利用API接口批量获取pubmed文献

#引用这两个包,没有的话需要下载
library(XML)
library(RCurl)

#设置不可变动的参数
path = 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi'
path1 = 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi'

#设置需要变动的参数
#改变term中的关键词
web = getForm(path, db = 'pubmed', term = 'p50', usehistory = 'y', RetMax = '10', RetStart = '1')

#改变文件的名字
output_file <- 'p50.txt'

#获取列表
doc <- xmlParse(web, asText = TRUE, encoding = "UTF-8")
key <- sapply(getNodeSet(doc, "//QueryKey"), xmlValue)
webenv <- sapply(getNodeSet(doc, "//WebEnv"), xmlValue)


#开始爬虫
if (file.exists(output_file)) {
  # 获取已下载文件的大小
  file_size <- file.info(output_file)$size
  # 设置断点续传的起始位置
  start_pos <- paste(file_size, sep = '')
  
  # 发起HTTP请求并启用断点续传
  res<-getForm(path1, 
               destfile = output_file, 
               Query_key = key, db = 'pubmed', WebEnv = webenv, rettype = 'abstract', retmode = 'xml', 
               resumefrom = start_pos)
} else {
  # 第一次下载,没有断点续传
  res <- getForm(path1, Query_key = key, db = 'pubmed', WebEnv = webenv, rettype = 'abstract', retmode = 'xml')
}

#输出结果
write.table(res, output_file, col.names = TRUE)

运行代码时务必保持网络环境,获得的是txt文件,但是里面是xml格式。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值