输入格式
#chr11:51515698_51515699dupTG
#chr11:51515699_51515700insTG
#chr14:75498786_75498787insT
#chr14:75498786delT
#NM_014381.2:c.3742dupA
#NM_014381.2:c.3742delA
#NM_014381.2:c.3740A>C
#用基因组坐标而不用c.XXX作为输入信息的原因
#transvar不接受c.3742dupA之类含有dup的输入结果
#必须将dup转为ins
#但是dup转ins的时候,需要判断是否是在外显子边缘
#比如对于MLH3的NM_014381:c.3755dupG
#要将dup改写成ins时,如果不知道c.3755是外显子3'端边缘
#会错误地写成c.3755_3756insG
#实际上,c.3755与c.3756之间隔着一个内含子
#正确地修改结果应该是:c.3755_3755+1insG
#但事先很难知道这里是不是外显子边界,还需要知道正负链信息
#如果非要这样,就要先导入转录本的bed文件,而且还需要计算,还容易出错
#不如直接用基因组坐标,简单直接。
##用基因组坐标时,只需全部写成delXXXinsXXX的格式用transvar来注释
#后续只需挑选一下转录本即可
my $start = $POS;
my $end = $start + length($REF) - 1;
my $input_var = "$CHROM:$start\_$end"."del$REF"."ins$alt";
核心部分:
transvar ganno -i \'$variant2\' --refseq --seqmax -1 --aa3
transvar canno -i \'$variant2\' --refseq --seqmax -1 --aa3
transvar panno -i \'$variant2\' --refseq --seqmax -1 --aa3
在线工具:
输入 “NM_005228.3:p.E746_S752del”,输出结果如下:
left_align_gDNA
值得注意的是:
coordinates(gDNA/cDNA/protein) 这一列,所有都是靠转录本的右侧(3‘端)注释的。
不论是gDNA, cDNA,当然,对于protein来说,不存在这个问题。
也就意味着,对于某些indel来说:
如果是正链转录本,那么gDNA和cDNA是相对应的。
gDNA<=>cDNA #相对应,都是靠右注释
left_align_gDNA <=>left_align_cDNA #相对应
如果是负链转录本,
gDNA<=>left_align_cDNA #相对应
left_align_gDNA <=>cDNA #相对应,靠近转录本右侧注释
一些EQA和HGVS命名要求按转录本的右侧(3‘)注释,也即是要求呈现cDNA 。
那么在正链转录本中对应的就是 gDNA,
在负链转录本中对应的就是left_align_gDNA。
比如,看看这个:
TransVar
input transcript gene strand coordinates(gDNA/cDNA/protein) region info
NM_007294:c.4065_4068delTCAA NM_007294 (protein_coding) BRCA1 - chr17:g.41243482_41243485delGATT/c.4065_4068delTCAA/p.N1355Kfs*10 inside_[cds_in_exon_10] CSQN=Frameshift;left_align_gDNA=g.41243480_41243483delTTGA;unaligned_gDNA=g.41243480_41243483delTTGA;left_align_cDNA=c.4063_4066delAATC;unalign_cDNA=c.4065_4068delTCAA;dbxref=GeneID:672,HGNC:1100,MIM:113705;aliases=NP_009225;source=RefSeq