人参考基因组不同版本区别 CRCH37 vs b37 vs hg19 vs hsd537 vs GRCH38

本文详细对比了GRCH37、b37、hs37d5、hg19与GRCH38(hg38)等基因组版本的差异,包括它们的来源、主要区别、坐标系统以及染色体编号的不同。解释了hs37d5作为b37的升级版,增加了病毒序列和decoy序列,以及Y染色体同源区的标记。同时,介绍了hg19与hs37d5在线粒体、大小写碱基和染色体编号上的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果使用基于GRCH37的衍生参考基因组版本,建议使用hs37d5,这几个版本的基因组的主要区别介绍如下:

1)GRCH37,b37,hs37d5(b37+decoy)与hg19、GRCH38(hg38)的来源: hg19来自UCSC,GRCH37来自NCBI,b37来自千人基因组第一期,建议使用的是b37的升级版hs37d5,来源于千人基因组计划第二期,也是目前Broad正在使用的两个基于hg19的基因组版本之一(另一个版本无hs37d5,即decoy序列)。

2)GRCH37,b37和hs37d5的区别: 可以将hs37d5理解为b37的升级版,b37为GRCH37的升级版。b37在GRCH37的基础上进行命名和坐标系统规范,包括线粒体和GL开头的一些没有定位到基因组的序列;hs37d5在b37基础上增加了一条病毒序列(疱疹病毒),一条decoy序列(hs37d5,来自BAC或者质粒克隆等,没有具体的变异检测的作用,但是能增加比对率,以及提升正确的比对率),并且在Y染色体上把X,Y染色体的同源区mark 成了N。

3) hg 19与hs37d5的区别: hg19与hs37d5的坐标系统一样,1-X,Y染色体碱基信息一模一样。区别是(不考虑scaffold的区别):

    • 线粒体有差别(版本不一样,hs37d5用的是修正版的NC_012920,而hg19是老版的NC_001807),建议使用NC_012920(也有基于hg19更新线粒体信息的hg19基因组)。
    • UCSC参考基因组中有大小写碱基,小写表示在repeat区(Repeats from RepeatMasker and Tandem Repeats Finder)。
    • 染色体编号表示不同,hg19带有chr,hs37d5直接是染色体编号

4)hs37d5和GRCH38(hg38)的区别: GRCH38是GRCH37的升级版,总体组装的碱基数量,基因的坐标位置等许多信息的更新,具体区别可参考PPT

每次基因组版本的升级,比如从hg18到hg19,再到hg38,坐标系统已经不一样,所以分析过程中使用了某个基因组,去公共数据库查询频率,位置等信息时,都要对应到使用的参考基因组查询相关信息,才能保持信息的一致性。另外,如果需要,基因组坐标间也能通过LiftOver进行转换。

5)以下是hg19和GRCH37衍生版本之间差异及信息的说明网址,可供参考:https://wiki.dnanexus.com/Scientific-Notes/human-genome

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值