通常在获得SNP位点以后,我们肯定想知道这些突变位点在基因组上出现的位置、突变的类型以及危害程度。在此,小编给大家推荐一种变异位点注释软件--snpEff。
1. 软件下载与安装
该软件的开发基于java语言,下载安装比较简单。在Unix系统下,下载解压即可。解压以后有两个文件夹,clinEff和snpEff。我们今天使用的是snpEff。
wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
unzip snpEff_latest_core.zip
2. 查询可用数据库
运行命令如下:
java -jar snpEff.jar databases > snpEff.databases
在snpEff.databases中,42789个数据库可供下载,并列出了下载的基因组名、物种及对应的链接。
3. 下载数据库(以大麦为例)
java –jar snpEff.jar download Hordeum_vulgare
值得注意的是,由于大麦基因组数据的更新,该数据库也相应有所调整,可以在https://sourceforge.net/projects/snpeff/中下载新的大麦的数据库。
4. 进行注释
数据准备:
输入的文件为vcf格式,需要提供的主要信息有:染色体编号(如chr1H)、位置(POS)、参照碱基(REF)及变异碱基(ALT)。
注释命令:
java –jar snpEff.jar Hordeum_vulgare testbarley1H.vcf> testbarley1H.ann.vcf
注释结果有两个:testbarley1H.ann.vcf 和 snpEff_summary.html
在vcf文件中,注释信息以“|”分割:
1: Allele:T表示该突变碱基的类型。
2: Annotation:突变类型(3_prime_UTR_variant, 5_prime_UTR_premature_start_codon_gain_variant, 5_prime_UTR_variant, downstream_gene_variant, initiator_codo_variant, intergenic_region, intron_variant, missense_variant, non_canonical_start_codon, non_coding_transcript_exon_variant, splice_acceptor_variant, splice_donor_variant, splice_region_variant, start_lost, stop_gained, stop_lost, stop_retained_variant, synonymous_variant, upstream_gene_variant) 多个类型之间用&连接。
3: Annotation_impact:对变异位点产生的影响程度进行简单评估,有四个程度(HIGH, MODERATE, LOW, MODIFIER)。
4: Gene_Name:该变异位点所在基因的基因名,如果变异位点的突变类型是intergenic_region,则显示的是离该变异位点最近的一个基因。
5: Gene_ID:基因ID。
6: Feature_Type:变异位点所在的区域类型,transcript,motif,miRNA。
7: Feature_ID:Feature_Type所对应的ID。
8: Transcript_BioType:转录本类型。
9: Rank:只有当变异位点位于基因区域时才有值,当变异位点位于基因区域以外(intergenic_region)时,该字段的值为空。该值给出的是变异位点所处的exton/intron和该基因的exon/intron的总数。
10: HGVS.c:在DNA水平上,采用HGVS标准命名的变异位点的情况。
11: HVGS.p:在蛋白质水平上,采用HGVS标准命名的变异位点的情况。
12: cDNA.pos/cDNA.length:变异位点在cDNA上的位置/cDNA的长度。
13: CDS.pos/CDS.length:变异位点在CDS的位置/CDS的长度。
14: AA.pos/AA.length:变异位点在氨基酸上的位置/氨基酸的长度。
15: Distance:不同的情况,距离的含义是不同的,因此可能会是空值。Up/Downstream:到第一个/最后一个密码子的距离。Intergenic:到最近基因的距离。到外显子中最近的内含子边界的距离(+/-代表上游/下游)。如果相同,使用正数。在内含子中离最近外显子边界的距离(+/-上/下)。到基序中第一碱基的距离。到miRNA中第一碱基的距离。在剪接位点或剪接区域中,离外显子-内含子边界的距离ChipSeq peak:到顶点(或峰中心)的距离。Histone/Histone state:到顶点(或峰中心)的距离。
16: ERRORS/WARNINGS/INFO:添加可能影响批注准确性的错误、警告或信息性消息。可以使用“代码”(如第1列所示,如w1)或“消息类型”(如第2列所示,如warning_ref_dones_match_genome)添加。所有这些错误、警告或信息消息都是可选的。
html文件在网页中查看:
对以下几个方面进行的统计信息,可以根据需要绘制饼图或者柱形图: