linux下载测序数据,高速下载测序数据(SRA,Fastq等)

一、测试环境及工具

Linux(Ubuntu 18.04.1)

Aspera (Aspera Connect version 3.9.9.177872)

e959cce30f5f

image

二、Aspera 下载

e959cce30f5f

image

wget 下载:wget https://download.asperasoft.com/download/sw/connect/3.9.9/ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz

三、安装及配置

1. 解压

tar -zxvf ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz

2. 安装

./ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.sh

3. 配置许可

sudo cp ~/.aspera/connect/etc/aspera-license /usr/local/bin/

4. 配置程序环境变量

vim ~/.bashrc

在末尾加上你的aspera所在目录

export PATH="/home/baimoc/.aspera/connect/bin:$PATH"

立马生效

source ~/.bashrc

5. 配置秘钥

新建配置目录

mkdir /home/baimoc/.aspera/config/

复制到配置目录

cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh /home/baimoc/.aspera/config/

四、测试

1. 一个例子

ascp -QT -L /home/baimoc/logs -l 100M -P33001 -i /home/baimoc/.aspera/config/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR689/SRR689233/SRR689233_1.fastq.gz ./out_path

2. 常用参数介绍

命令

含义

ascp

aspera的可执行文件

-QT

禁用进度显示

-L /home/baimoc/logs

日志文件路径

-l 100M

最大传输

-P33001

SSH传输端口

-i /home/baimoc/.aspera/config/asperaweb_id_dsa.openssh

密钥文件路径

era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR689/SRR689233/SRR689233_1.fastq.gz

资源路径

./out_path

文件保存路径

3. 下载地址的构建

EBIera-fasp@fasp.sra.ebi.ac.uk:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff

NCBI:anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR507/SRR5077625/SRR5077625.sra

可以看到最关键的前缀是:era-fasp@fasp.sra.ebi.ac.uk:或anonftp@ftp-private.ncbi.nlm.nih.gov:

4. EBI查询整个项目的资源文件

e959cce30f5f

image

6. 查看下载链接

提取对应列,即可下载相应的资源文件

e959cce30f5f

image

五、为什么这里要建议选EBI,而不用NCBI?

这个是在 NCBI 下载时的链接及提示:

e959cce30f5f

image

e959cce30f5f

image

简单来说就是:

现在NCBI正在将数据传输至亚马逊云 AWS 和 谷歌云 GS

美国境内服务器免费,其他的服务器收费,用户自己掏钱

由于正在迁移,所有NCBI也不保证数据的完整性

虽然也提供了免费的链接,但是实测速度奇慢无比

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基因数据分析在Linux系统中是非常常见的。在Linux中,有许多用于基因数据分析的工具和软件可供使用。其中一些常用的工具包括SAMtools、BEDTools、GATK(Genome Analysis Toolkit)和BCFtools等。这些工具可以用于处理和分析基因组测序数据,包括SNP检测、InDel检测、差异表达分析等。 在Linux中进行基因数据分析的一般步骤包括数据预处理、质量控制、比对、变异检测和结果注释等。首先,需要对原始测序数据进行质量控制和预处理,包括去除低质量的reads、去除接头序列和过滤掉低质量的碱基。然后,将预处理后的数据进行比对,将测序reads与参考基因组进行比对,得到比对结果。接下来,可以使用工具如SAMtools和BCFtools进行SNP和InDel的检测。最后,可以使用注释工具如ANNOVAR对检测到的变异进行注释,以了解其可能的功能和影响。 总之,Linux系统提供了丰富的工具和软件来支持基因数据分析,可以进行各种类型的分析,包括SNP检测、InDel检测和差异表达分析等。 #### 引用[.reference_title] - *1* *3* [全基因组重测序数据分析](https://blog.csdn.net/g863402758/article/details/54908850)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [生物信息学入门 使用 GEO基因芯片数据进行差异表达分析(DEG)——Limma 算法 数据 代码 结果解读](https://blog.csdn.net/tuanzide5233/article/details/83541443)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值