前 言
很多老师会发现,高通量测序后需要生信分析的过程中,需要填写一个信息分析表。而信息分析表中有一个对生信分析很重要的信息——基因组文件及注释文件。通常这类文件我们都是需要老师提供对应的下载链接,以便于生信直接利用这个链接去下载数据进而做分析,这样做的目的主要是为了避免公司分析使用的基因组信息不是老师研究的物种(同一物种不同属有不同的基因组)或者研究的版本(基因组版本经常会更新,但是不同版本的注释文件略有差异,尽量不要用来进行联合分析)。因此,老师自己去寻找对应的基因组注释信息以及提供对应的下载链接就显得很重要啦~而这类信息很多老师都不知道该怎么去寻找并提供。
参考基因组的注释信息通常需要基因组文件(genome.fa)、基因结构注释文件(gene annotation.GFF)以及蛋白注释文件(pep.fa)。相关文件具体内容及展现形式可参考【如何填写测序项目信息分析表?】。在此,爱基百客基于比较常见的数据库NCBI和Ensembl(除此之外还有Encode、UCSC、CNCB、或者针对某类物种单独的数据库如BRAD等,老师们选择自己常用的即可),今天我们对参考基因组注释信息的查找做了一个简单的介绍,有需要的老师可以参考一下。
01 NCBI
网址:https://www.ncbi.nlm.nih.gov/
以人(human,homo Sapiens)为例
1. 打开NCBI,在搜索栏输入homoSapiens(或human&