在NCBI SRA 下载序列文件
SRA数据库中查找数据
SRA地址:https://www.ncbi.nlm.nih.gov/sra/
在检索框中查找需要的领域相关信息,查找PR号
根据已知的PR登入号信息检索使用的数据:
下载SRR_Acc_List.txt,里面包含样本的编号文本,下载数据需要根据这个信息读取。
SRA ToolKit (sra-tools) 的安装和使用
安装地址:https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
安装后的执行程序在bin里面
下载数据可以使用下面的命令:
创建相应的输入输出文件夹
复制代码到文本中,修改创建的路径信息和软件安装位置信息,文件后缀为[.bat] 文件、双击运行即可
@echo off
setlocal enabledelayedexpansion
:: 设置路径变量 需要修改
set "BASE_DIR=C:\Users\lcbio\Desktop\INPUT"
set "OUTPUT_DIR=C:\Users\lcbio\Desktop\OUTPUT"
set "SRATOOLKIT_BIN=D:\software\sratoolkit.3.1.1-win64\bin"
set "PREFETCH_PATH=%SRATOOLKIT_BIN%\prefetch.exe"
set "PREFETCH_OPTION_FILE=C:\Users\lcbio\Desktop\INPUT\SRR_Acc_List.txt"
:: 第一步:执行 prefetch 命令
echo Executing prefetch...
"!PREFETCH_PATH!" --option-file "!PREFETCH_OPTION_FILE!" -O "!BASE_DIR!"
echo Prefetch completed.
:: 确保输出目录存在
if not exist "!OUTPUT_DIR!" (
echo Creating output directory...
mkdir "!OUTPUT_DIR!"
echo Output directory created.
)
:: 第二步:遍历 BASE_DIR 及其子目录下的所有文件夹
for /r "!BASE_DIR!" %%d in (.) do (
:: 检查当前目录下是否存在 .sra 文件
if exist "%%d\*.sra" (
echo Processing folder: "%%d"
for %%f in ("%%d\*.sra") do (
:: 获取不包含路径的文件名
set "FILENAME=%%~nxf"
:: 构建 fastq-dump 命令并执行,指定输出目录
"%SRATOOLKIT_BIN%\fastq-dump.exe" -I --split-files "%%f" -O "!OUTPUT_DIR!\!FILENAME!"
echo Command executed for file: "%%f"
)
)
)
echo Done!
pause
endlocal