本次基因组实验对象为 Saccharomyces cerevisiae(YJM1386);
实验主线为两条,第一为基因组测序模拟,用模拟后的结果进行序列
组装;第二为基因组注释,并将注释结果可视化。
step1:基因组模拟测序和组装及其分析
使用 art_illumina 程序,对下载基因组序列进行测序平台为 Hiseq2000 的全基因组测序模拟。实验结果发现随着测序深度(f)的增大,覆盖率也随之增大,且 f 小于 10 时对覆盖率影响较大。其次,对 f 为 45,插入片段分别为 180、3000 的测序结果进行
fastqc 质控分析、bowtie2+samtools 比对统计分析、SOAPdenovo 基因组组装、QUAST 组装结果分析。质控和比对结果都较好;组装结果为 319 个 scaffolds, 65076 个 gaps overall,N50=268762,N90=54889;QUAST 计算组装覆盖率为 87.78%。
step2:基因组注释
基因组注释:使用 tblastn+ blast92gff3.pl 进行同源预测,发现 40853 个基因;使用augustus+blastp 进行从头预测,发现5427 个基因;使用隐马尔可夫模型+R 进行启动子元件预测,结果 70%的 TATAbox 到其对应的最近基因距离小于 4170bp。利用 gffcompare对注释结果和参考注释文档进行比对,发现从头预测结果比同源预测更好。
step3:基因组注释可视化
使用 IGV 软件实现同源预测、从头预测、启动子元件预测等结果和参考基因组注释文件的可视化。