indel该右移还是左移

 

1、前言

  这个问题正如黄树嘉老师知乎文章中所说,向左移、向右移都是可以的,但要在一定的文件格式中下定义,他文章提到的是vcf。

  描述一个突变有多种文件, bam => vcf = > 注释文件 => 结果文件。
 

2、在bam文件中

黄数嘉老师的文章图片
  上面图片来自黄树嘉老师知乎文章,可以看出都是缺失了 “GC” 碱基,从比对角度看,结果一样。可以分别认为它们在左、中、右发生的,都没问题,这时候就需要比对软件有约定俗称的规则,目前是左移
  通常情况下BWA文件的indel突变位置都是左移的。如果发现不是这样,想要对bam文件进行左移,可以使用GATK软件自带的矫正功能,不同的版本模块名称是不同的,需要现查。
 

3、在vcf文件中

  通常情况下拷变异的主流软件都是 变异 向左 “贪婪比对” 的,也就是说会 一直向左比对,直到不匹配为止,然后以最左边的碱基位置表示变异的起始位置。

变异表示的标准化包含两个部分
  1,节俭原则 2,左对齐。
  这两部分分别对应变异的长度与位置。

  可以查看你手里的vcf、与别人给你的vcf关于indel位点是左移还是右移的。依据实际情况进行软件矫正(vt、bedtools,使用前请验证),或者自己写脚本实现。
 

4、在注释文件中

  此时要用注释软件对vcf文件进行注释,增加突变的基因、C点、P点等信息。按照目前业内共识、临检中心室间质评要求,都要求注释结果要符合 HGVS规范
  因为临床医生看突变更考虑功能影响,所以HGVS规范更贴合临床医生的要求。

  HGVS命名规范,是人类基因组变异协会制定的对突变进行命名的规范(sequence variant nomenclature by human genome variation society),即当序列改变和氨基酸功能一致等价时,突变的命名要以靠近 3-UTR 区来命名。
HGVS示例

  概括下就是 “ 3’ 规则 ”:所有变异都应按照靠近基因转录方向末端(3’端)的位置来表述。所以在实际注释的时候,要根据基因所在strand来确定indel的注释方向。
真核细胞结构示意图
  hg19文件chr1 -> X染色体,1 -> 20000000+位点的过程中,不同基因在参考序列上是不同的strand。转录的时候,负链基因的3’端在左侧,正链基因的3’端在右侧,于是依据3’ 规则,负链基因的突变应该向左贪婪比对,正链基因的位点向右贪婪比对(“正链基因右对齐,负链基因左对齐”)。目前的主流注释软件VEP、ANNOVAR都不能直接给出完美符合“HGVS规范”的注释结构。
 

5、在结果文件中

  通常结果文件直接从注释文件中获取,此处不再说明。
 
 
 

参考文件:

1、关于Indel变异,我该往左还是该往右?
2、Variant Normalization 变异的标准化
3、Unified representation of genetic variants
4、人类全基因组遗传变异解读的高通量测序数据规范

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值