NCBI-homologene数据库的初步探索

HomoloGene数据库就是用来查找物种间对应的同源基因

ftp地址:

ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data

homologene.data存放着不同物种之间同源基因的对应关系

nohup wget -c 'ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data' & #下载数据
echo -e "HID(HomoloGene_group_id)\tTaxonomyID\tGeneID\tGeneSymbol\tProtein_gi\tProtein_accession" |cat - homologene.data >mid && mv mid homologene.data #给homologene.data文件加上列名

$ head -5 homologene.data |column -t
HID(HomoloGene_group_id)  TaxonomyID  GeneID  GeneSymbol  Protein_gi  Protein_accession
3                         9606        34      ACADM       4557231     NP_000007.1
3                         9598        469356  ACADM       160961497   NP_001104286.1
3                         9544        705168  ACADM       109008502   XP_001101274.1
3                         9615        490207  ACADM       545503811   XP_005622188.1

根据HID去重之后的个数,得到44233组同源基因

$ awk 'NR>1{print $1}' homologene.data |sort -u |wc -l
44233

根据TaxonomyID得到目前共21个物种

$ awk 'NR>1{print $2}' homologene.data |sort -u |wc -l
21

每个物种都有一个对应的Taxonomy ID

10090   Mus musculus
10116   Rattus norvegicus
28985   Kluyveromyces lactis
318829  Magnaporthe oryzae
33169   Eremothecium gossypii
3702    Arabidopsis thaliana
4530    Oryza sativa
4896    Schizosaccharomyces pombe
4932    Saccharomyces cerevisiae
5141    Neurospora crassa
6239    Caenorhabditis elegans
7165    Anopheles gambiae
7227    Drosophila melanogaster
7955    Danio rerio
8364    Xenopus (Silurana) tropicalis
9031    Gallus gallus
9544    Macaca mulatta
9598    Pan troglodytes
9606    Homo sapiens
9615    Canis lupus familiaris
9913    Bos taurus   

数据库中包含的人类基因数:19129,也就是说这些基因有其它物种的同源基因对应关系

$ awk 'NR>1 && $2=="9606"' homologene.data |wc -l
19129
参考:

https://www.jianshu.com/p/877d6f3cc799

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值