R语言利用API接口批量获取pubmed文献

Veronica polita

已于 2023-12-06 16:25:25 修改

阅读量505

点赞数

文章标签： r语言爬虫 nlp

于 2023-12-04 17:41:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_69280380/article/details/134789955

版权

#引用这两个包，没有的话需要下载
library(XML)
library(RCurl)

#设置不可变动的参数
path = 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi'
path1 = 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi'

#设置需要变动的参数
#改变term中的关键词
web = getForm(path, db = 'pubmed', term = 'p50', usehistory = 'y', RetMax = '10', RetStart = '1')

#改变文件的名字
output_file <- 'p50.txt'

#获取列表
doc <- xmlParse(web, asText = TRUE, encoding = "UTF-8")
key <- sapply(getNodeSet(doc, "//QueryKey"), xmlValue)
webenv <- sapply(getNodeSet(doc, "//WebEnv"), xmlValue)


#开始爬虫
if (file.exists(output_file)) {
  # 获取已下载文件的大小
  file_size <- file.info(output_file)$size
  # 设置断点续传的起始位置
  start_pos <- paste(file_size, sep = '')
  
  # 发起HTTP请求并启用断点续传
  res<-getForm(path1, 
               destfile = output_file, 
               Query_key = key, db = 'pubmed', WebEnv = webenv, rettype = 'abstract', retmode = 'xml', 
               resumefrom = start_pos)
} else {
  # 第一次下载，没有断点续传
  res <- getForm(path1, Query_key = key, db = 'pubmed', WebEnv = webenv, rettype = 'abstract', retmode = 'xml')
}

#输出结果
write.table(res, output_file, col.names = TRUE)

运行代码时务必保持网络环境，获得的是txt文件，但是里面是xml格式。

Veronica polita

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Veronica polita CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

161万+: 周排名

32万+: 总排名

684: 访问

: 等级

20: 积分

3: 粉丝

0: 获赞

2: 评论

2: 收藏

私信

关注

热门文章

最新评论

R语言利用API接口批量获取pubmed文献
CSDN-Ada助手: 评论：非常高兴看到您写了第二篇博客！您在利用R语言获取pubmed文献方面的经验和知识真的很有价值。希望您能继续分享相关内容，让更多人受益。在与该博文相关的扩展知识和技能方面，您可以考虑介绍一些数据清洗和处理的技巧，例如如何处理pubmed文献中的缺失值或重复数据。此外，您还可以探讨如何使用文本挖掘技术对pubmed文献进行主题分析或情感分析，这将进一步提升您的博文的深度和广度。再次恭喜您的创作，期待您的下一篇博客！谦虚的态度和分享精神将会使您的博客在读者间产生更大的影响力。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
作业存档｜GSEA分析
CSDN-Ada助手: 非常感谢博主分享《作业存档｜GSEA分析》的文章，这篇博客详细介绍了GSEA分析的操作过程和注意事项，对于想要学习GSEA分析的读者来说非常有帮助。建议博主可以继续撰写关于基因分析方面的主题，比如基于RNA-seq数据的差异表达分析，这个话题也是非常热门且实用的技术，相信会有更多读者受益。期待博主的下一篇文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

作业存档｜GSEA分析

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。