基因ID

本文详细介绍了基因ID的不同类型,如Entrez ID,及其在NCBI、UCSC和Ensembl数据库中的应用。讨论了基因ID与版本之间的关系,以及如何在Entrez Gene数据库中搜索和转换基因ID。此外,还提供了利用DAVID ID转换工具进行基因ID转换的步骤,强调了关注ID版本在分析中的重要性。

各类基因ID转换

基因ID分类

  1. Ensembl的目标是为遗传学家,分子生物学家和其他研究人员研究我们自己的物种和其他脊椎动物和模式生物的基因组而提供集中的资源。Ensembl是几个知名的基因组浏览器之一,用于检索基因组学信息。
  2. 相似的数据库和浏览器还被发现在美国国家生物技术信息中心(National Center for Biotechnology Information,简称NCBI)(Entrez ID).

    • Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene
      location的。每一个发现的基因都会被编制一个统一的编号,而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。每个基因的编号具有唯一性,包括不同种属生物间的同源基因编号也不相同,例如同样是TP53基因,人源TP53的Entrez ID为7157,zebrafish源的Entrez ID为30590,chichen源的Entrez ID为396200。
    • Entrez是什么:Entrez是一个综合性生物信息数据检索引擎,包含核酸、蛋白质、基因、基因组、GEO、pubMed等很多常用的数据库,可以将其类比为百度,正如百度也有百度图片、百度新闻、百度文库、百度学术等等子项目一样。我们需要搜索什么样的信息就使用相应的子数据库,也可以直接在Entrez中搜索,那么Entrez将给出所有数据库中的检索信息。
      实际上我们说去NCBI上检索一下时所称呼的NCBI往往就是指的Entrez,不过事实上这两个词是不对等的,因为NCBI实际上是一个组织,而Entrez是一个综合的生信检索引擎。
  3. 加州大学圣克鲁兹分校的UCSC基因组浏览器。

基因ID对应关系

(Jimmy大神总结http://www.bio-info-trainee.com/1469.html
首先说明:hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。
* 首先是NCBI对应UCSC,对应ENSEMBL数据库:
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
可以看到ENSEMBL的版本特别复杂!!!很容易搞混!
但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38
看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!
Feb 13 2014 00:00 Directory April_14_2003
Apr 06 2006 00:00 Directory BUILD.33
Apr 06 2006 00:00 Directory BUILD.34.1
Apr 06 2006 00:00 Directory BUILD.34.2
Apr 06 2006 00:00 Directory BUILD.34.3
Apr 06 2006 00:00 Directory BUILD.35.1
Aug 03 2009 00:00 Directory BUILD.36.1
Aug 03 2009 00:00 Directory BUILD.36.2
Sep 04 2012 00:00 Directory BUILD.36.3
Jun 30 2011 00:00 Directory BUILD.37.1
Sep 07 2011 00:00 Directory BUILD.37.2
Dec 12 2012 00:00 Directory BUILD.37.3
可以看到,有37.1, 37.2, 37.3 等等,不过这种版本一般指的是注释在更新,基因组序列一般不会更新!!!
* 反正你记住hg19基因组大小是3G,压缩后八九百兆即可!!!
如果要下载GTF注释文件,基因组版本尤为重要!!!
对NCBI:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/ ##最新版(hg38)
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ ## 其它版本
* 对于ensembl:
ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz
变幻中间的release就可以拿到所有版本信息:

基因ID匹配是将不同来源或不同类型的基因标识符进行对应关联的过程,以下是常见的基因ID匹配方法: ### 利用在线数据库进行匹配 许多生物信息学数据库提供了ID转换工具。 - **NCBI(美国国立生物技术信息中心)**:其提供的“Batch Entrez”工具可批量转换基因ID。在该工具页面上传包含基因ID的列表,选择输入和输出的ID类型,如从Gene Symbol转换为Entrez Gene ID,提交后即可获得转换结果。 - **Ensembl**:它的BioMart工具能进行多种基因ID的转换。进入BioMart界面,选择合适的数据集(如人类基因数据集),设定输入和输出的ID字段,上传或输入待转换的基因ID,最后获取转换后的结果。 ### 使用生物信息学软件进行匹配 - **R语言**:借助`biomaRt`包实现基因ID匹配。以下是示例代码: ```R # 安装和加载biomaRt包 if (!require("biomaRt")) { install.packages("biomaRt") library("biomaRt") } # 选择数据集 ensembl <- useMart("ensembl", dataset = "hsapiens_gene_ensembl") # 定义要转换的ID和目标ID类型 input_ids <- c("ID1", "ID2") # 替换为实际的基因ID converted_ids <- getBM(attributes = c("ensembl_gene_id", "hgnc_symbol"), filters = "ensembl_gene_id", values = input_ids, mart = ensembl) print(converted_ids) ``` - **Python**:可以使用`mygene`库来完成基因ID转换。示例代码如下: ```python import mygene mg = mygene.MyGeneInfo() input_ids = ['ID1', 'ID2'] # 替换为实际的基因ID results = mg.querymany(input_ids, scopes='ensembl.gene', fields='symbol', species='human') print(results) ``` ### 本地数据库匹配 如果需要处理大量数据或对数据安全性有要求,可以搭建本地数据库进行基因ID匹配。下载相关的基因注释文件(如NCBI的基因信息文件),构建数据库表,通过SQL语句实现ID的匹配。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值