人类基因组版本详解(hg19 vs hg38)
1️⃣ 人类基因组主要版本
人类基因组是一个庞大的 DNA 序列数据库,科学家们使用 参考基因组(Reference Genome) 进行基因组测序、比对和功能分析。随着技术的进步,参考基因组不断更新。
🔍 人类基因组主要版本对比
基因组版本 | 别名 | 发布年份 | 主要特点 |
---|---|---|---|
GRCh36 | NCBI36 | 2006 | 早期基因组版本,不再使用 |
GRCh37 | hg19 | 2010 | 长期使用的标准,仍被部分数据库支持 |
GRCh38 | hg38 | 2013 | 目前的主流版本,修正了基因坐标错误,增加假染色体(ALT) |
T2T-CHM13 | 无 | 2022 | 首个完整人类基因组,填补了 GRCh38 缺失的 8% DNA |
💡 为什么参考基因组会更新?
- 修正错误:早期版本中的基因坐标和拼接可能有误。
- 补充缺失区域:GRCh37 和 GRCh38 仍然缺失一些着丝粒和端粒区域。
- 改进基因注释:更新基因模型,提高基因识别准确度。
- 提升比对精准度:假染色体(ALT)能更好地解析重复区域。
2️⃣ 什么是 hg19 和 hg38?
hg
代表 Human Genome(人类基因组)。19
和38
分别对应 第 19 版(GRCh37)和第 38 版(GRCh38)。hg19
和hg38
是 UCSC 基因组数据库的命名方式。hg19 = GRCh37
,hg38 = GRCh38
,只是命名方式不同。
2️⃣ GRCh 全称是什么?
GRCh = Genome Reference Consortium Human(人类基因组参考联盟)
完整版本名称:
GRCh37
(2010 年发布,对应hg19
)GRCh38
(2013 年发布,对应hg38
)
🔍 主要参与机构
- NCBI(美国国家生物技术信息中心)
- EBI(欧洲生物信息学研究所)
- UCSC(加州大学圣克鲁兹分校)
- WTSI(英国桑格研究所)
🚀 GRC 负责修正、更新和改进基因组版本,确保科学研究和临床应用使用最新的参考基因组!
3️⃣ hg19 vs hg38 的主要区别
特点 | hg19(GRCh37) | hg38(GRCh38) |
---|---|---|
发布日期 | 2010 | 2013 |
基因坐标 | 旧版,部分坐标有误 | 修正了部分坐标,基因定位更准确 |
染色体编号格式 | chr1 , chr2 , chrX | 1 , 2 , X (Ensembl 格式) |
假染色体(ALT) | ❌ 无 | ✅ 新增 261 个 ALT 序列,改进基因组比对 |
去除错误拼接的区域 | ❌ 部分错误仍然存在 | ✅ 修正基因拼接错误 |
是否推荐使用 | 已逐步淘汰 | 目前的标准版本 ✅ |
4️⃣ 如何确认我的数据是 hg19 还是 hg38?
✅ 方法 :查看基因 ID 格式
head(gene_names)
基因名格式 | 可能的基因组版本 |
---|---|
ENSG00000141510 | Ensembl ID(可能是 hg38) |
TP53 , ZNF143 | HGNC Symbol(可能是 hg19 或 hg38) |
chr17:7579472-7590856 | 基因坐标(可能是 hg19) |