从NCBI获得关注物种基因组信息,环境分布等
方法1:
安装NCBI 数据下载软件:
esearch -db biosample -query "Proteobacteria"|efetch >Proteobacteria.biosample_result.txt
方法2:
step1:获得关注物种的所有组装(Assembly)基因组
step2:选择展示每个assembly的Biosampe,然后下载表格,得到文件《ncbi_dataset.tsv》
step3:提取ncbi_dataset.tsv的Biosample列,删除列名,去重复后保存为《Biosample.ID.txt》
step4,NCBI Batch Entrez网页提交Biosample.ID.txt
https://www.ncbi.nlm.nih.gov/sites/batchentrez
跳转:
step5,下载相关详细信息
step6. 结果展示
综上:通过NCBI查找关注物种,获得其所有组装基因组来自的生物样品ID(biosample),在bacth entrez网页上传ID list之后,可下载所有相关数据的全部meta data。由此,可以获得关注物种的基因组列表,基因组来自的项目,菌株生存温度,生长条件,样品分离来源,以及其他来源