从NCBI批量获得关注物种的所有基因组信息,环境分布等

从NCBI获得关注物种基因组信息,环境分布等

方法1:

安装NCBI 数据下载软件:

 esearch -db biosample -query "Proteobacteria"|efetch  >Proteobacteria.biosample_result.txt

方法2:

step1:获得关注物种的所有组装(Assembly)基因组

在这里插入图片描述

step2:选择展示每个assembly的Biosampe,然后下载表格,得到文件《ncbi_dataset.tsv》

在这里插入图片描述

step3:提取ncbi_dataset.tsv的Biosample列,删除列名,去重复后保存为《Biosample.ID.txt》

在这里插入图片描述

step4,NCBI Batch Entrez网页提交Biosample.ID.txt

https://www.ncbi.nlm.nih.gov/sites/batchentrez
在这里插入图片描述

跳转:

在这里插入图片描述

step5,下载相关详细信息

在这里插入图片描述

step6. 结果展示

在这里插入图片描述

综上:通过NCBI查找关注物种,获得其所有组装基因组来自的生物样品ID(biosample),在bacth entrez网页上传ID list之后,可下载所有相关数据的全部meta data。由此,可以获得关注物种的基因组列表,基因组来自的项目,菌株生存温度,生长条件,样品分离来源,以及其他来源

### 如何从NCBI下载基因组数据文件 #### 访问NCBI网站并定位到目标生物体 为了获取特定生物体(如大肠杆菌ATCC 25922)的基因组数据,需访问国家生物技术信息中心(NCBI)官方网站。进入主页后,在搜索框内输入所需物种名称 "Escherichia coli ATCC 25922"[^1]。 #### 浏览至Assembly页面 点击搜索结果中的链接前往该菌株的具体详情页。接着找到并选择左侧菜单栏里的“Assembly”选项卡,这里包含了组装完成后的染色体或质粒序列信息。 #### 查看可用资源列表 在Assembly概览区域下方会展示一系列可供下载的数据集版本号及其描述说明;通常建议选取最新发布的稳定版作为下载对象。注意查看每条记录旁边是否有FTP图标表示支持通过匿名传输协议(FTP)直接获取文件。 #### 使用FTP服务进行批量下载 对于希望一次性取得全部相关资料的情况来说,利用FTP是最便捷的方式之一。复制带有`ftp://`前缀的目标URL路径,并借助命令行工具或其他专用软件连接服务器实施自动化操作。例如Linux/Unix环境下可以执行如下Shell脚本实现自动拉取: ```bash #!/bin/bash wget -r -np -nd ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF_000005845.2_ASM584v2/ ``` 上述代码片段中指定了递归读取(`-r`)、不创建父目录结构(`-np`)以及不在本地建立远程子目录层次(`-nd`)三个参数来简化最终保存位置下的文件组织形式[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值