可以参考https://blog.csdn.net/weixin_56577499/article/details/136347631
https://mp.weixin.qq.com/s/x0c6DE6I9LVt2iFE25ttug
Entrez ID是什么?
Entrez ID 实际上指的是 Entrez gene ID,这是一个由 NCBI 提供的编号系统,用来标识染色体上的基因位点。每个基因都会被赋予一个唯一的编号,这个编号在不同物种中是不同的。例如,同样是 TP53 基因,人类的 TP53 的 Entrez ID 为 7157,而斑马鱼的 TP53 的 Entrez ID 为 30590,鸡的则为 396200。这个 ID 是基于 NCBI 的 Entrez Gene 数据库产生的。
Entrez Gene 数据库不仅包含基因的序列信息,还包括基因的功能、相关文献、进化信息等,为研究者提供了广泛的基因相关数据。
Entrez 是什么?
Entrez 是 NCBI 提供的一个综合性生物信息数据检索引擎,类似于一个集成搜索工具。它不仅包含基因数据库(如 Entrez Gene),还覆盖了多个常用的生物数据库,比如:
- 核酸数据库(核酸序列)
- 蛋白质数据库(蛋白质序列)
- 基因组数据库(完整基因组序列)
- GEO(基因表达数据)
- PubMed(生物医学文献)
我们可以把 Entrez 类比为一个生物信息学的“百度”搜索引擎,不同的子数据库就像百度的子产品(如百度图片、百度新闻等)。通过 Entrez,你可以检索各个子数据库的生物信息内容。
简而言之,Entrez 是一个整合多个数据库的生物信息学检索工具,帮助研究人员从不同数据源中快速找到所需的信息。常见的例子包括搜索基因的序列信息、文献关联、蛋白质功能等。
除了 Entrez ID,还有什么其他基因编号系统?
除了 Entrez ID 之外,还有许多不同的基因编号系统。这些编号系统来自不同的数据库或组织,用于标识基因和相关序列。以下是一些常见的基因编号系统:
-
Ensembl ID:
- Ensembl 是另一个广泛使用的基因组数据库,它提供的编号系统是 Ensembl Gene ID。
- 例如,某个基因可能在 Ensembl 中的编号为 ENSG00000139618,用于标识特定基因。
- Ensembl 还提供转录本和蛋白质的编号,例如 ENST(转录本 ID)和 ENSP(蛋白质 ID)。
-
GeneBank Accession Number:
- GenBank 是一个由 NCBI 维护的核酸序列数据库,GenBank Accession Number 是用来标识每条核酸序列的唯一编号。它可以是从研究人员提交的序列数据中生成的。
-
UniProt ID:
- UniProt 提供的是蛋白质序列的数据库,UniProt ID 是用来标识特定蛋白质的唯一编号。
-
AGILENT_ID 和 BGD_ID:
- 这些编号系统在不同的芯片或数据库中使用,例如用于基因表达芯片数据或其他特定应用场景。
不同数据库和研究领域可能使用不同的基因 ID 系统。Gene ID 转换 是生信数据处理中的常见任务,涉及将一个系统中的基因 ID 转换为另一个系统中的基因 ID。
很好!接下来我们讲解第四部分内容:
如何搜索 Entrez ID?
Zm00001eb005020 LOC100280342
Zm00001eb006000 LOC100283151
Zm00001eb006160 LOC100216626
Zm00001eb006180 LOC100192457
玉米中得输入右侧得id才能检索到,可能是因为左侧是v5版本ensambl id 不说v4版本
要搜索 Entrez ID,可以使用 NCBI 的 Gene 数据库,以下是具体步骤:
-
访问 NCBI Gene 数据库:
- 打开 NCBI 的网站(https://www.ncbi.nlm.nih.gov/),然后选择 Gene 数据库。
-
输入基因名称或基因符号进行搜索:
- 如果你知道基因的名称或基因符号(例如 TP53),可以将其输入到搜索框中,选择相应的物种,点击搜索。
- 搜索结果会显示该基因在多个物种中的记录,包含对应的 Entrez ID。
-
输入 Entrez ID 直接搜索:
- 如果你已经知道某个基因的 Entrez ID,直接在搜索框中输入该 ID,系统会直接跳转到该基因的详细页面,包括基因功能、序列、蛋白质产物等信息。
-
其他搜索方式:
- 你也可以通过基因的其他标识符(如 Ensembl ID 或 UniProt ID)搜索,这些信息也会关联到相应的 Entrez Gene 页面。
例子:
- 如果你在 Gene 数据库中搜索“TP53”,你会看到 TP53 在不同物种中的 Entrez ID,比如人类的 TP53 Entrez ID 为 7157,斑马鱼为 30590。
很好!接下来我们讲解第五部分内容:
各种 Gene ID 之间的转换
在生物信息学分析中,常常需要在不同的 Gene ID 之间进行转换,例如将 Entrez ID 转换为 Ensembl ID,或者将基因符号(Gene Symbol)转换为相应的 Gene ID。以下是几种常用的转换工具和方法:
1. DAVID Gene ID Conversion Tool
-DAVID的操作逻辑 先将你的序列上传,然后选择物种信息,必要时还有背景信息,经过这几步之后,你就可以选择各种工具对你的序列 进行分析和转换了。
- DAVID 是一个常用的在线工具,支持多种 ID 之间的转换,包括 Entrez Gene ID、Ensembl Gene ID、Gene Symbol 等。
- 具体步骤:
- 打开 DAVID 网站,选择 “Gene ID Conversion Tool”。

-
上传你的基因列表,选择需要转换的 ID 类型(例如从 Ensembl ID 转换为 Entrez ID)。
-
选择物种信息,提交后即可获得转换结果。
2. bioDBnet
- bioDBnet 提供了一个简单的基因 ID 转换工具,支持多种数据库的 Gene ID 转换。
- 你可以输入一组基因 ID,选择目标 ID 类型,然后进行批量转换。
3. Ensembl BioMart
https://asia.ensembl.org/index.html
- Ensembl 的 BioMart 工具也支持基因 ID 之间的转换,特别适用于从 Ensembl ID 转换到其他 ID 系统。
- 步骤:
- 进入 Ensembl 网站,选择 BioMart 工具。
- 选择数据集(例如人类基因组),然后选择你要转换的基因 ID 类型(如 Ensembl Gene ID)。
- 选择输出格式(如 Entrez Gene ID),运行查询即可获得转换结果。
4. 使用 Python 或 R 语言包
- 在大规模数据分析中,可以使用编程语言进行批量转换。例如,使用 Python 的 mygene 模块或 R 的 biomaRt 包,可以高效地进行不同 ID 之间的转换。
玉米的基因id转换
MaizeGDB网站的Translate Gene Model IDs(https://www.maizegdb.org/gene_center/gene)