寻找与疾病相关的SNP位点——R语言从SNPedia批量提取搜索数据

最新推荐文章于 2023-04-15 15:36:32 发布

weixin_34269583

最新推荐文章于 2023-04-15 15:36:32 发布

阅读量927

点赞数

文章标签： r语言 php 数据库

原文链接：http://www.cnblogs.com/ywliao/p/6517063.html

版权

本文介绍了如何利用R语言的RCurl和XML包，结合正则表达式，从SNPedia百科中批量提取与特定疾病（如crouzon综合症）相关的SNP位点信息，包括 Orientation、Stabilized、Reference、Chromosome、Position、Gene 和 clinvar 表格数据。

摘要由CSDN通过智能技术生成

SNP是单核苷酸多态性，人的基因是相似的，有些位点上存在差异，这种某个位点的核苷酸差异就做单核苷酸多态性，它影响着生物的性状，影响着对某些疾病的易感性。SNPedia是一个SNP调査百科，它引用各种已经发布的文章，或者数据库信息对SNP位点进行描述，共享着人类基因组变异的信息。我们可以搜索某个SNP位点来寻找与之相关的信息，也可以根据相关疾病，症状来寻找相关的SNP。

初次使用SNPedia

SNPedia主页网址为http://snpedia.com/index.php/SNPedia，比如我想查找与crouzon综合症相关的SNP，只需要在SNPedia中搜索crouzon syndrome,即会出现许多相关的SNP搜索结果

如果这时候我想看每个SNP的相关信息，我就要每个链接分别点进去

后来发现我们只需要提取里面的部分信息，Orientation，Stabilized，Reference，Chromosome，Position，Gene，还有clinvar表格信息，这时候我们就可以从网页中利用RCurl包，XML包，正则表达是把所需要的内容提取出来，有效抓取有用信息。

知识准备

RCurl包和XML包

在前一篇博文R语言从小木虫网页批量提取考研调剂信息 http://www.cnblogs.com/ywliao/p/6420501.html中已经提过，这里再提一个XML包中之前没有介绍的函数。
readHTMLTable(doc) #doc 是XML或者HTML格式文本，可以是文件名，也可以是刚刚parse的html对象，该函数返回XML或HTML中的表格

正则表达式

这里阐述基本的正则表达式使用
[ ]中括号，匹配中括号里面的任意字符，例如[a]匹配"a"
[a-z]表示匹配a到z任意字母，[A-Z]匹配大写A到Z，[0-9]匹配0-9任意数字
[ ]*中括号加*表示匹配任意次，[ ]+表示匹配至少一次，例如[a-zA-z,;: ]+表示匹配小写和大写字母,;:和空格至少一次
[ a|b ] 匹配a或者b
直接输入字符，实现精确定位。比如"apple[a-zA-z,;: ]+",定位到apple开头的后面匹配小写和大写字母,;:和空格至少一次的内容
[\u4E00-\u9FA5]匹配汉字

R语言gregexpr函数

使用方法：gregexpr(pattern,istring， fixed = FALSE) #pattern就是要匹配正则表达是，istring是待匹配的字符串矢量,

最低0.47元/天解锁文章

weixin_34269583

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
寻找与疾病相关的SNP位点——R语言从SNPedia批量提取搜索数据

SNP是单核苷酸多态性，人的基因是相似的，有些位点上存在差异，这种某个位点的核苷酸差异就做单核苷酸多态性，它影响着生物的性状，影响着对某些疾病的易感性。SNPedia是一个SNP调査百科，它引用各种已经发布的文章，或者数据库信息对SNP位点进行描述，共享着人类基因组变异的信息。我们可以搜索某个SNP位点来寻找与之相关的信息，也可以根据相关疾病，症状来寻找相关的SNP。初次使用SNPedia...
复制链接

扫一扫