目的:从全基因组重测序数据中获取突变信息,如单核苷酸碱基突变,片段缺失和插入。
工具:Galaxy server (https://usegalaxy.org/). 这是一个完全免费的在线基因组数据分析平台,上面有各种常用的生物信息学工具,用于在线处理和分析。一个普通用户的使用空间为250Gb。数据上传至服务器,在服务器上进行处理,因此对本地电脑没有要求! Galaxy的主服务器在美国,另外在欧洲和澳大利亚各有一个独立运行的服务器,Galaxy | Europe和Galaxy | Australia,不过建议使用主服务器,上面的工具是最全面的。
步骤:
一、数据准备
- 基因组参考序列和注释信息,即reference genome和annotation。reference genome将于对测序数据的比对和寻找突变。annotation是基因序列和蛋白序列信息,用于后续对突变的效果进行分析,如氨基酸改变,剪接位点突变等。对于常见的模式生物,galaxy已经收录了这两项内容,不需要进行准备。未收录的物种,则需要从NCBI下载相应的数据,并上传至galaxy上自己的账户中。通常已测序的物种在NCBI上有相应的基因组信息和下载链接,reference genome为一个GCF开头的.fna文件,annotation为一个GCF开头的.gff文件。通常NCBI还提供一个GCF开头的.gbff文件,它相当于将reference genome和annotation合并在一起了。后面会提到使用方法。Galaxy还提供直接从网站获取数据和通过FTP上传文件的方法,具体可以参考官网上关于Get Data的说明。
- 突变体的全基因组测序数据,通常为压缩包形式的fastq文件,结尾为.fq.gz。单向(s