一般我们在进行群体重测序分析的时候,会对vcf文件进行注释,并提取出不同的注释成分,看看他们的核酸多态性(θpi),Tajima’s D之类的参数进行计算,看看在编码区跟非编码区这些参数有什么区别。
本文测试文件请自行下载snpEff,里面的example就可以进行测试
本次小课堂内容就是教会大家最简单的处理方法:首先我们需要准备的内容有几个,第一个是注释软件snpEff
https://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip/downloadsourceforge.net第二个是参考基因组跟注释文件,模式物种的可以直接下载,自己测的基因组的,就需要自己构建数据库了,构建数据库的方法也非常简单
首先,在下载完的snpEff文件夹里面建立一个文件夹,我愿称之为data(好吧,他只能叫data)
![f5935202a123da4d6da9d4013037d950.png](https://i-blog.csdnimg.cn/blog_migrate/e982211910e4ee762a4bc340c78685e7.png)
接着,在data文件夹里面创建两个文件夹,一个名字叫genomes,里面放着基因组,然后再创建一个文件夹,文件夹命名为参考基因组名字的前缀,里面放着gtf文件,命名为genes.gtf或者是gff尾缀