测序数据处理 —— 数据下载

测序数据处理 —— 数据下载


如果是我们自己测的数据,一般公司提供的文件是压缩后的数据,后缀为 fastq.gzfq.gz。但如果我们想要使用别人上传到 SRAEBI 数据库中的测序数据,则需要使用专门的下载软件把这些数据下载到本地。

下载 SRA 数据

对于 SRA 数据库中的文件,我们可以使用官方提供的 sratools 工具包中的软件进行下载,该工具包可以使用 conda 来进行安装

conda install -c bioconda sra-tools

GEO 中搜索感兴趣的项目,并进入 SRA 数据库

我们可以选择全部或部分文件,并下载对应的 Accession List,我们选择两个文件

然后使用 sratools 工具包中的 prefetch 下载对应的文件,例如

prefetch --option-file SRR_Acc_List.txt --output-directory .

下载成功之后会有两个 sra 文件

ls */*sra
# SRR22225215/SRR22225215.sra  SRR22225218/SRR22225218.sra

需要先将其转换为 fastq

ls */*sra | xargs fastq-dump --split-3

再将其压缩为 gz 格式,因为是双端测序,所以每个样本会有两个以 12 标识的数据

ls *fastq | xargs gzip
ls *fastq.gz
# SRR22225215_1.fastq.gz  SRR22225215_2.fastq.gz  SRR22225218_1.fastq.gz  SRR22225218_2.fastq.gz

或者直接一步到位

ls */*.sra | xargs fastq-dump --split-files --gzip -O .

如果你嫌 fastq-dump 跑的太慢的话,可以使用更快的 fasterq-dump,并使用 -e 指定线程数,但是该方法不支持压缩命令,需要手动压缩

ls */*.sra | xargs fasterq-dump --split-files -e 10 -O .
# 压缩
ls *fastq | xargs gzip

如果你既想要飞一般的速度,同时能够压缩文件,则可以使用 parallel-fastq-dump

先用 conda 安装

conda install -c bioconda parallel-fastq-dump

使用命令行转换

mkdir -p raw
ls */*.sra | xargs -n 1 -P 4 -I {} parallel-fastq-dump \
      --sra-id {} \
      --threads 4 \
      --outdir raw \
      --split-3 \
      --gzip \
      --tmpdir /tmp

或者写入到 Bash 脚本中

# 设置输出目录
output_dir="./raw"
# 确保输出目录存在
mkdir -p "$output_dir"
# 遍历子目录中的所有 .sra 文件
for sra_file in $(ls */*.sra); do
    echo "正在解压 $sra_file ..."
    parallel-fastq-dump --sra-id "$sra_file" \
                        --threads 4 \
                        --outdir "$output_dir" \
                        --split-3 \
                        --gzip \
                        --tmpdir /tmp
    echo "$sra_file 解压完成"
done

echo "所有文件解压完成"

下载 EBI 数据

如果下载 SRA 数据库的数据很慢,则可以尝试转道 EBI 数据库下载,这两个数据库中的数据是互通的。比如,进入 https://www.ebi.ac.uk/ena/browser/home 并搜索 SRR22225215

如果要获取所有项目的数据,可以点击第一列项目编号。点击对应的 fastq 文件会进行下载,当然我们不推荐这种方式。因为默认的文件链接是 FTP 形式的,可以获取所有样本的链接然后使用下载工具进行批量下载,点击 TSV 可以下载表格样式的样本信息,也可以根据样本链接的规律进行构造

我们推荐使用 IBM 的下载工具 aspera 进行下载,可以使用 conda 安装,或者下载软件包安装

conda install -c hcc aspera-cli

需要先找到自己的秘钥地址,conda 安装的路径在

echo ${$(which ascp)%/*}/../etc/asperaweb_id_dsa.openssh

手动安装秘钥在

~/.aspera/connect/etc/asperaweb_id_dsa.openssh

使用 aspera 下载,需要获取对应的链接,点击 Show Column Selection,然后选择 sra_aspera,在表格中会出现新的一列

获取到链接之后便可以下载数据了,可以运行如下命令

ascp -l 100M -P 33001 -QT -k 2 -i ${$(which ascp)%/*}/../etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR222/015/SRR22225215 .

注意,需要在下载链接前加上 EBI 给的公共账户名 era-fasp 及地址

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

名本无名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值