HomoloGene数据库就是用来查找物种间对应的同源基因
ftp地址:
ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data
homologene.data存放着不同物种之间同源基因的对应关系
nohup wget -c 'ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data' & #下载数据
echo -e "HID(HomoloGene_group_id)\tTaxonomyID\tGeneID\tGeneSymbol\tProtein_gi\tProtein_accession" |cat - homologene.data >mid && mv mid homologene.data #给homologene.data文件加上列名
$ head -5 homologene.data |column -t
HID(HomoloGene_group_id) TaxonomyID GeneID GeneSymbol Protein_gi Protein_accession
3 9606 34 ACADM 4557231 NP_000007.1
3 9598 469356 ACADM 160961497 NP_001104286.1
3 9544 705168 ACADM 109008502 XP_001101274.1
3 9615 490207 ACADM 545503811 XP_005622188.1
根据HID去重之后的个数,得到44233组同源基因
$ awk 'NR>1{print $1}' homologene.data |sort -u |wc -l
44233
根据TaxonomyID得到目前共21个物种
$ awk 'NR>1{print $2}' homologene.data |sort -u |wc -l
21
每个物种都有一个对应的Taxonomy ID
10090 Mus musculus 10116 Rattus norvegicus 28985 Kluyveromyces lactis 318829 Magnaporthe oryzae 33169 Eremothecium gossypii 3702 Arabidopsis thaliana 4530 Oryza sativa 4896 Schizosaccharomyces pombe 4932 Saccharomyces cerevisiae 5141 Neurospora crassa 6239 Caenorhabditis elegans 7165 Anopheles gambiae 7227 Drosophila melanogaster 7955 Danio rerio 8364 Xenopus (Silurana) tropicalis 9031 Gallus gallus 9544 Macaca mulatta 9598 Pan troglodytes 9606 Homo sapiens 9615 Canis lupus familiaris 9913 Bos taurus
数据库中包含的人类基因数:19129,也就是说这些基因有其它物种的同源基因对应关系
$ awk 'NR>1 && $2=="9606"' homologene.data |wc -l
19129
参考:
https://www.jianshu.com/p/877d6f3cc799