突变位点注释软件snpEff 使用详解

通常在获得SNP位点以后,我们肯定想知道这些突变位点在基因组上出现的位置、突变的类型以及危害程度。在此,小编给大家推荐一种变异位点注释软件--snpEff。

1. 软件下载与安装

该软件的开发基于java语言,下载安装比较简单。在Unix系统下,下载解压即可。解压以后有两个文件夹,clinEff和snpEff。我们今天使用的是snpEff。

wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip

unzip snpEff_latest_core.zip

2. 查询可用数据库

运行命令如下

java -jar snpEff.jar databases > snpEff.databases

在snpEff.databases中,42789个数据库可供下载,并列出了下载的基因组名、物种及对应的链接。

3. 下载数据库(以大麦为例)

java –jar snpEff.jar download Hordeum_vulgare

值得注意的是,由于大麦基因组数据的更新,该数据库也相应有所调整,可以在https://sourceforge.net/projects/snpeff/中下载新的大麦的数据库。

4. 进行注释

数据准备:

输入的文件为vcf格式,需要提供的主要信息有:染色体编号(如chr1H)、位置(POS)、参照碱基(REF)及变异碱基(ALT)。

 

注释命令:

java –jar snpEff.jar Hordeum_vulgare testbarley1H.vcf> testbarley1H.ann.vcf

注释结果有两个:testbarley1H.ann.vcf 和 snpEff_summary.html

在vcf文件中,注释信息以“|”分割:

1: Allele:T表示该突变碱基的类型。

2: Annotation:突变类型(3_prime_UTR_variant, 5_prime_UTR_premature_start_codon_gain_variant, 5_prime_UTR_variant, downstream_gene_variant, initiator_codo_variant, intergenic_region, intron_variant, missense_variant, non_canonical_start_codon, non_coding_transcript_exon_variant, splice_acceptor_variant, splice_donor_variant, splice_region_variant, start_lost, stop_gained, stop_lost, stop_retained_variant, synonymous_variant, upstream_gene_variant) 多个类型之间用&连接。

3: Annotation_impact:对变异位点产生的影响程度进行简单评估,有四个程度(HIGH, MODERATE, LOW, MODIFIER)。

4: Gene_Name:该变异位点所在基因的基因名,如果变异位点的突变类型是intergenic_region,则显示的是离该变异位点最近的一个基因。

5: Gene_ID:基因ID。

6: Feature_Type:变异位点所在的区域类型,transcript,motif,miRNA。

7: Feature_ID:Feature_Type所对应的ID。

8: Transcript_BioType:转录本类型。

9: Rank:只有当变异位点位于基因区域时才有值,当变异位点位于基因区域以外(intergenic_region)时,该字段的值为空。该值给出的是变异位点所处的exton/intron和该基因的exon/intron的总数。

10: HGVS.c:在DNA水平上,采用HGVS标准命名的变异位点的情况。

11: HVGS.p:在蛋白质水平上,采用HGVS标准命名的变异位点的情况。

12: cDNA.pos/cDNA.length:变异位点在cDNA上的位置/cDNA的长度。

13: CDS.pos/CDS.length:变异位点在CDS的位置/CDS的长度。

14: AA.pos/AA.length:变异位点在氨基酸上的位置/氨基酸的长度。

15: Distance:不同的情况,距离的含义是不同的,因此可能会是空值。Up/Downstream:到第一个/最后一个密码子的距离。Intergenic:到最近基因的距离。到外显子中最近的内含子边界的距离(+/-代表上游/下游)。如果相同,使用正数。在内含子中离最近外显子边界的距离(+/-上/下)。到基序中第一碱基的距离。到miRNA中第一碱基的距离。在剪接位点或剪接区域中,离外显子-内含子边界的距离ChipSeq peak:到顶点(或峰中心)的距离。Histone/Histone state:到顶点(或峰中心)的距离。

16: ERRORS/WARNINGS/INFO:添加可能影响批注准确性的错误、警告或信息性消息。可以使用“代码”(如第1列所示,如w1)或“消息类型”(如第2列所示,如warning_ref_dones_match_genome)添加。所有这些错误、警告或信息消息都是可选的。 

html文件在网页中查看:

对以下几个方面进行的统计信息,可以根据需要绘制饼图或者柱形图:

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值