RNA-seq测序流程一:数据下载

目录


前言

  • 如果有公司提供的测序数据,包含fastq测序文件,便可直接进行
  • 公共数据库下载数据:
  1. SRA Toolkit 进行下载NCBI数据
  2. aspera 工具下载EBI数据
  3. wget, curl 命令直接下载
  4. grabseqs 工具下载

参考:RNA-Seq 流程–step 1 :数据下载

一、NCBI官方的 SRA Toolkit 进行下载

获取GEO编号,比如GSE100939,点击页面下方的SRA Run Selector
在这里插入图片描述
进入SRA Run Seletor
在这里插入图片描述

  1. 结合原文献,勾选自己需要分析的样本数据;
  2. 点击Accession list,下载后得到,SRR_Acc_List.txt;
  3. 也可点击Metadata,下载后得到,SraRun Table.txt。

这是本次示例所要下载的数据:
SRR5812059
SRR5812058
SRR5812057
SRR5812056
SRR5812055
SRR5812054

prefetch 下载数据

##单个样本下载
prefetch SRR5812059 -O output #output替换为你想下载数据的路径
#21:06开始加载,23:28才下载完成,即一个样本测序数据用时2h22min

## 批量下载数据
prefetch -O output --option-file SRR_Acc_List.txt  ##SRR_Acc_List.txt是需要下载的样本列表;output是下载数据存储的路径

二、aspera 工具下载

  1. aspera 软件安装
##下载 aspera 软件,在aspera 官网界面找到IBM Aspera Connect,找到Linux版本链接下载

##解压
tar zxvf ibm-aspera-connect_4.1.3.93_linux.tar.gz

##运行脚本
bash ibm-aspera-connect_4.1.3.93_linux.sh

#安装后会提示默认的安装地址,进入后查看是否有.aspera文件夹  

cd         # 进入安装地址
ls -a     # 如果看到.aspera文件夹,代表安装成功

# 永久添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc  && cp ~/.bashrc ~/.bash_profile

source ~/.bashrc ~/.bash_profile

##或者直接conda安装 
  1. 查看密钥
#查看密钥,一定要明确软件安装的位置
$ find ./ -name asperaweb_id_dsa.openssh
./.aspera/connect/etc/asperaweb_id_dsa.openssh
  1. 下载数据

ENA数据库获取下载链接,网址
如下载编号:PRJNA393461
在这里插入图片描述
在这里插入图片描述
选择要下载的选项(我们这里使用的工具是aspera,所以选择该选项,还有其他下载工具选择)
在这里插入图片描述
选择TSV下载
在这里插入图片描述
在这里插入图片描述
在操作以下代码之前,需要将上述run_accession相关内容即fastq_aspera字样删除,仅剩下载链接的文本

outputdir=/home/ghost/LINE_seq/rawdata_aspera/
cat filereport_read_run_PRJNA393461_tsv.txt |while read id; 
do echo "ascp -k 1 -QT -l 300m -P33001 -i /home/ghost/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}"; 
done >sra.download.sh
nohup bash sra.download.sh >sra.download.log &
#平均每个1030分钟左右

① -k :表示断点续传,通常设置为1即可
② -Q:启用-Q或-QQ传输策略,使用-l和-m来设定目标和最低传输速度。-T:取消加密传输。若不添加此参数,可能会下载不了
③ -l :设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度
④-i :输入私钥,安装后有在目录 ~/.aspera/connect/etc/下有几个私钥,一般处于miniconda目录下
⑤:–host:ftp的host名,NCBI的为http://ftp-private.ncbi.nlm.nih.gov;EBI的为http://fasp.sra.ebi.ac.uk。
⑥:–user:用户名,NCBI的为anonftp,EBI的为era-fasp。
⑦:–mode:选择模式,上传为 send,下载为 recv。

  1. 结果文件:
    将所选的6个.fastq文件都下载了,但根据download.log文件的报错提示,最后一个文件下载中断,需要单独重新下载
    在这里插入图片描述

download.log文件会记录下载文件过程及相关报错
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值