Fastq文件的获取 (sratoolkit 工具)

本文详细介绍了如何在Linux系统中安装和配置SRAToolkit工具,以便从NCBI获取并处理未处理的SRA数据,转化为Fastq文件,包括使用`prefetch`下载SRA数据和`fastq-dump`拆分文件的步骤。
摘要由CSDN通过智能技术生成

Fastq文件的获取

author:CYH-BI

date:2023.10.25

Fastq文件得获取 ,可以从NCBI获取,也可以自己测序得到结果,下面介绍从网上获取数据。

linux 下安装SRA Toolkit工具

2023.3.24

1、NCBI 官网查看工具地址,并下载安装包

具体操作步骤如下:

  • 打开NCBI 官网

    在这里插入图片描述

  • 点击Download Tools并进入

    在这里插入图片描述

  • 找到SRA Toolskit

在这里插入图片描述

  • 会转跳到github ,复制下载连接,后续使用Linux wget 命令下载

    在这里插入图片描述

  • 打开Linux 总端,使用wget 命令下载

    wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.7/sratoolkit.3.0.7-centos_linux64.tar.gz
    

2、解压sratoolkit.3.0.7 安装包.。注意包名称,我们的不一定一样(不同版本不一样)

tar xvf sratoolkit.3.0.7-centos_linux64.tar.gz

3、查看有无安装成功(如果软件含有bin目录,大多情况下配置环境时路径需要精确到bin)

cd /home/cyh/sratoolkit/sratoolkit.3.0.7-centos_linux64/bin #看看能不能打开bin

4、配置SRA Toolkit工具环境

nano ~/.bashrc  #编辑.bashrc文件 或者是 vim /etc/.bashrc

export PATH="/home/cyh/sratoolkit/sratoolkit.3.0.7-linux64/bin:$PATH"  #最后一行输入
#编辑结束后按CTRL+C保存,按提示后按回车
# 格式:export PATH="<路径>:$PATH" ;路径要精确到bin
#注意:你的全路径。是你的,不是我的。
#注意:你的全路径。是你的,不是我的。
#注意:你的全路径。是你的,不是我的。
source ~/.bashrc  #重启文件

SRA Toolkit 工具的目的是下载NCBI未处理的SRA数据,还能将SRA文件处理成fastq文件

使用SRA Toolkit工具下载SRA数据

1、使用命令下载感兴趣的数据,SRA Toolkit 工具有个命令可以稳定下载数据,就是有点慢,但是稳定。

[root@localhost sra_data]# prefetch SRR12415658  ##以SRR12415658为例

以SRR12415658数据为例:

建议使用后台下载:(如果是服务器,后台下载不会因为连接中断而中断,除非服务器网断了)

nohup prefetch SRR12415658 &   

对于多个数据下载:(方法多种多样,可以自己写循环)

2、下载后,使用fastq-dump拆分sra数据,转变为fastq格式数据

fastq-dump --split-3 SRR12415658.sra

--split-3表示双端测序

加以加上 -O 参数,不加就会下到sra 里面(好像在SRA Toolkit里,忘记了,上次找了好久)。

fastq-dump --split-3 SRR12415658.sra -O /home/cyh/Desktop/sra

将结果输出到 /home/cyh/Desktop/fastq ,(文件你得先有)

3、还需了解其他参数,可以使用 -h参数。比如,如果你需要将文件输出到其他地方,加个 -O参数。

fastq-dump -h

后续可以得到两个fastq文件 ,用于后续FastQC 质控。

SRA-Toolkit(Sequence Read Archive Toolkit)是一个用于处理和分析DNA测序数据的工具集。下面是一些常见的使用方法: 1. 下载和安装:首先,你需要从NCBI的SRA网站下载SRA-Toolkit的最新版本。然后,根据官方文档提供的指南进行安装。 2. 数据下载:使用SRA-Toolkit可以从NCBI的SRA数据库中下载测序数据。你可以使用以下命令来下载一个或多个样本的数据: ``` fastq-dump <accession_number> ``` 其中,`<accession_number>`是样本在SRA数据库中的访问号。 3. 数据转换:下载的数据通常是以SRA格式存储的,你可能需要将其转换为其他格式(如FASTQ)以便进行后续分析。你可以使用以下命令来转换数据格式: ``` fastq-dump --split-3 <accession_number> ``` 这将将SRA文件拆分并转换为FASTQ格式。 4. 数据质量控制:对于测序数据,进行质量控制是很重要的。你可以使用工具FastQC来评估数据的质量,并根据需要进行过滤或修剪。 5. 序列比对:一旦你准备好了测序数据,你可以使用工具如Bowtie、BWA或STAR将其比对到参考基因组上。这将帮助你识别测序数据中的变异和差异表达。 6. 数据分析:使用比对后的数据,你可以进行各种分析,如变异分析、差异表达分析、富集分析等。根据你的研究目的,选择适合的工具和方法进行分析。 请注意,以上只是SRA-Toolkit的一些常见使用方法,具体的操作步骤可能会因你的研究需求和数据类型而有所不同。建议查阅官方文档和相关文献以获取更详细的信息和指导。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值