readxmls r语言_R语言批量爬取NCBI基因注释数据

weixin_39769740

于 2021-01-12 20:04:46 发布

阅读量1.1k

点赞数 1

文章标签： readxmls r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39769740/article/details/112867122

版权

本文介绍了如何使用R语言和XML包批量爬取NCBI基因注释数据，通过示例详细讲解了从获取基因列表、转换ID、定位网页元素到构建并运行爬虫的完整过程，强调了XPath在网页节点定位中的作用，以及在遇到不同基因属性节点位置变化时的精确定位方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网络爬虫(web crawler)，也叫网络蜘蛛(spider)，是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。各大搜索引擎都可以被看做爬虫，根据爬取的内容更新自身的网站内容或其对其他网站的索引。一般如果想批量从网页获取数据，有download或者API(之前推送过使用API提取TCGA数据)页面最好，没有的话可以考虑使用爬虫爬取。

本期使用R语言批量爬取NCBI基因注释信息，主要用到了XML包的getNodeSet函数。需要使用者有一定html+css基础，以及理解并能使用XML路径语言(xpath)。

使用R爬取NCBI人类基因信息流程如下：

首先准备目标基因文件，我们以下面这几个基因(gene symbol的形式)为例进行爬取其在NCBI(gene)中的信息,基因列表文件可以从这里下载(https://pan.baidu.com/s/1c2jbvby)。

gene list文件

载入要用到的包并读入基因列表：

library(RCurl)

library(stringr)

library(XML)

library(clusterProfiler)

rm(list=ls())

# 读入基因列表：

genes

从下图可以发现NCBI对于基因页面的索引方式都是 https://www.ncbi.nlm.nih.gov/gene/Entrze ID 的方式。

NCBI中基因页面

所以我们需要将gene symbos转为entrze ID，这里使用clust

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。