seqkit根据基因id_基因类型注释根据基因ID就好了

博客介绍了如何使用seqkit工具进行基因ID的转换和注释,强调了AnnoProbe包的作用,提供了处理GENCODE数据库的方法,并分享了作者开发的R包系列,用于方便地处理表达芯片探针ID的注释问题。
摘要由CSDN通过智能技术生成
生物信息学数据库种类繁多,其中基因ID是很多人比较困惑的,尤其是很多产品居然还不是基因ID的问题,比如表达芯片是探针,所以我策划了一系列ID转换教程,见文末!我的包里面有一个函数大家比较感兴趣,就是为什么可以根据基因ID拿到其染色体坐标呢?而且还可以得到其基因类型。

如下所示:

library(AnnoProbe)
IDs <- c("DDX11L1", "MIR6859-1", "OR4G4P", "OR4F5")
ID_type = "SYMBOL"
annoGene(IDs, ID_type)
annoGene(IDs, ID_type,out_file ='tmp.html')
annoGene(IDs, ID_type,out_file ='tmp.csv')

你可以指定ID_type,目前只能是选择 "ENSEMBL" or "SYMBOL",然后这个函数就会为你进行ID转换及坐标,还有基因类型的注释。

0fa268dfd94ed1673f207877c365b3f2.png

需要使用下面的代码自行下载安装我们的AnnoProbe

library(devtools)
install_github("jmzeng1314/AnnoProbe")
library(AnnoProbe)

因为这个包里面并没有加入很多数据,所以理论上会比较容易安装,当然,不排除中国大陆少部分地方基本上连GitHub都无法访问。

我做了哪些事情

其实就是下载GENCODE数据库文件,然后格式化即可。我这里使用的是perl语言,实际上可能是使用R更好,保证这个开发流程的统一。

# https://www.gencodegenes.org/human/ 
nohup wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_32/gencode.v32.annotation.gtf.gz & 
# https://www.gencodegenes.org/mouse/
nohup wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M23/gencode.vM23.annotation.gtf.gz & 
# https://www.ensembl.org/Rattus_norvegicus/Info/Index
nohup wget ftp://ftp.ensembl.org/pub/release-98/gtf/rattus_norvegicus/Rattus_norvegicus.Rnor_6.0.98.chr.gtf.gz & 

zcat gencode.v32.annotation.gtf.gz |perl -alne  '{next unless  $F[1] eq "HAVANA";next unless $F[2] eq "gene";/gene_id "(.*?).d+.*?"; gene_type "(.*?)"; gene_name "(.*?)"/;print "$3t$2t$1t$F[0]t$F[3]t$F[4]"}'  > human_gencode.v32.txt
zcat gencode.vM23.annotation.gtf.gz |perl -alne  '{next unless  $F[1] eq "HAVANA";next unless $F[2] eq "gene";/gene_id "(.*?).d+.*?"; gene_type "(.*?)"; gene_name "(.*?)"/;print "$3t$2t$1t$F[0]t$F[3]t$F[4]"}'  > mouse_gencode.vM23.txt

zcat Rattus_norvegicus.Rnor_6.0.98.chr.gtf.gz |perl -alne  '{next unless $F[2] eq "gene";/gene_id "(.*?)";.*?gene_name "(.*?)";.*?gene_biotype "(.*?)";/;print "$2t$3t$1t$F[0]t$F[3]t$F[4]"}'  > rat_ensembl_6.0.98.txt

得到的文件如下:

53004 human_gencode.v32.txt
48961 mouse_gencode.vM23.txt
32623 rat_ensembl_6.0.98.txt

这些就加载到R包里面,有了这些数据源,就可以很轻松的进行基因ID转换或者注释了。

表达芯片探针ID转换大全

在2019年的尾巴,我推出3个R包,

  • 第一个是整合全部的bioconductor里面的芯片探针注释包。
  • 第二个是整合全部GPL的soft文件里面的芯片探针注释包。
  • 第三个是下载全部的GPL的soft文件里面的探针碱基序列比对后注释包。

配合着详细的介绍:

  • 第三个万能芯片探针ID注释平台R包
  • 第二个万能芯片探针ID注释平台R包
  • 第一个万能芯片探针ID注释平台R包
  • GEO数据库中国区镜像横空出世

因为这些包暂时托管在GitHub平台,但是非常多的朋友访问GitHub困难,尤其是我打包了好几百个GPL平台的注释信息后, 我的GitHub包变得非常臃肿,大家下载安装困难,所以我重新写一个精简包,也在:芯片探针ID的基因注释以前很麻烦 和 :芯片探针序列的基因注释已经无需你自己亲自做了, 里面详细介绍了。最重要的是idmap函数,安装方法说到过:芯片探针序列的基因注释已经无需你自己亲自做了, 使用起来也非常简单:

library(AnnoProbe)
ids=idmap('GPL570',type = 'soft')
head(ids)

仅仅是一句话,就拿到了这个平台的探针的注释信息。需要注意的是,这个函数的type参数,其实是有3个选择,这里我演示的是选择soft这个来源的基因注释信息。

并不是所有的平台都是有soft注释,也不是所有的平台都被我的这个工具囊括哦。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值