#引用这两个包,没有的话需要下载
library(XML)
library(RCurl)
#设置不可变动的参数
path = 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi'
path1 = 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi'
#设置需要变动的参数
#改变term中的关键词
web = getForm(path, db = 'pubmed', term = 'p50', usehistory = 'y', RetMax = '10', RetStart = '1')
#改变文件的名字
output_file <- 'p50.txt'
#获取列表
doc <- xmlParse(web, asText = TRUE, encoding = "UTF-8")
key <- sapply(getNodeSet(doc, "//QueryKey"), xmlValue)
webenv <- sapply(getNodeSet(doc, "//WebEnv"), xmlValue)
#开始爬虫
if (file.exists(output_file)) {
# 获取已下载文件的大小
file_size <- file.info(output_file)$size
# 设置断点续传的起始位置
start_pos <- paste(file_size, sep = '')
# 发起HTTP请求并启用断点续传
res<-getForm(path1,
destfile = output_file,
Query_key = key, db = 'pubmed', WebEnv = webenv, rettype = 'abstract', retmode = 'xml',
resumefrom = start_pos)
} else {
# 第一次下载,没有断点续传
res <- getForm(path1, Query_key = key, db = 'pubmed', WebEnv = webenv, rettype = 'abstract', retmode = 'xml')
}
#输出结果
write.table(res, output_file, col.names = TRUE)
运行代码时务必保持网络环境,获得的是txt文件,但是里面是xml格式。