怎么批量从NCBI上下载基因序列

下载序列简单不过,无非就是联网NCBI主页,选择数据库后输入AC号或GI号后直接下载。但是如何大批量下载,而且下载的序列是指定的AC或GI的呢?实现这一目的通常办法是借助一些生物软件的检索功能,诸如:Bioedit、Geneious、MacVector等。其实,NCBI自带的Batch Entrez 只需简单三步即可轻松完成这一任务。

【准备工作】
创建一个需要下载序列AC号的列表文件,每行一个独立的AC号,保存为文本文件:

这里写图片描述

【简要流程】

1、打开网页,粘贴这个网
址:http://www.ncbi.nlm.nih.gov/sites/batchentrez?

这里写图片描述

点击“浏览”按钮,选择事先准备带AC号的文本文件后,点击“Retrieve”开始检索,数秒后即可返回检索的序列记录;

这里写图片描述

3、点击检索到的序列记录“Retrieve records for 48 UID(s)”即可,后面就是“Send to” 保存要下载的序列,后面的操作就不在赘述,详见前面一些相关教程。

这里写图片描述

### 从 NCBI 下载基因组序列或轨迹名称的方法 要从 NCBI 获取基因组序列或轨迹名称,可以按照以下方法操作: #### 使用 SRA 工具套件下载数据 NCBI 的 Sequence Read Archive (SRA) 是存储高通量测序数据的主要数据库。可以通过 SRA Toolkit 来批量下载和处理这些数据[^4]。具体流程如下: 1. **安装 SRA Toolkit** 访问官方页面下载并安装适用于您系统的 SRA Toolkit 软件。 2. **获取 SRR 编号** 在 NCBI 中找到目标实验对应的 SRR(Sequence Run Identifier),这是每条记录的唯一标识符。 3. **运行 prefetch 命令** 利用 `prefetch` 命令将指定的 SRR 文件下载到本地缓存目录中。例如: ```bash prefetch SRRXXXXXX ``` 4. **转换为 FASTQ 格式** 将原始 `.sra` 文件转化为标准的 FASTQ 格式供后续分析使用: ```bash fasterq-dump SRRXXXXXX ``` #### 直接访问 FTP 链接 对于某些项目,可以直接通过其提供的 FTP 地址手动下载所需文件。例如,在 Bioproject PRJNA631442 中提到的数据集可能已经上传至特定路径下[^1]。通常情况下,这类链接会以类似于下面的形式呈现: ``` ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRRXXX/SRRXXXXX/ ``` #### 利用 GEOquery R 包自动化处理 GSE 数据集 如果关注的是 Gene Expression Omnibus (GEO) 平台上的公开表达谱,则推荐采用 Bioconductor 提供的 GEOquery 包来简化工作流。以下是基本代码框架: ```r library(GEOquery) # 加载远程服务器中的软文摘档 (.soft.gz) gse <- getGEO("GSEXXXX", GSEMatrix = TRUE, Annotate = FALSE) # 导出纯文本矩阵形式的结果保存成 CSV 文件 write.csv(exprs(gse[[1]]), file="output_expression_matrix.csv") ``` #### 注意事项 - 不同类型的生物学样本可能会涉及多种格式转化需求,比如 BAM 至 SAM 或者 VCF 解析等,这需要额外调用 samtools 和 bcftools 这样的命令行工具支持。 - 对于全基因组水平的研究课题来说,除了读取片段外还需要考虑参考组装版本的一致性问题以及潜在的大规模结构变异检测任务[^3]。 ---
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值