1. 参考基因组下载
目前常用的国际通用的人类参考基因组在NCBI,UCSC和ENSEMBL的版本和对应情况如下:
NCBI | UCSC | ENSEMBL |
---|---|---|
GRCH36 | hg18 | ENSEMBL release_52 |
GRCH37 | hg19 | ENSEMBL release_59/61/64/68/69/75 |
GRCH38 | hg38 | ENSEMBL release_76/77/78/80/81/82 |
ENSEMBL和NCBI数据库的版本较为复杂,因此我们选择下载UCSC的hg19作为参考基因组
进入UCSC后选择Downloads > Genome Data > Human > hg19 Full Dataset
使用axel(sudo apt install axel)下载chromFa.tar.gz文件
下载完成后需要解压文件并将所有染色体序列文件拼接整合成一个完整的hg38.fa文件