FASTA 和 FASTQ 格式详解|SRA转fastq

请你喝好果汁641

于 2025-02-04 16:33:51 发布

阅读量581

点赞数 5

分类专栏：生信基础知识 RNA-seq 文章标签： r语言

本文链接：https://blog.csdn.net/2302_80012625/article/details/145441847

版权

生信基础知识同时被 2 个专栏收录

35 篇文章

订阅专栏

RNA-seq

12 篇文章

订阅专栏

FASTA 格式

FASTA 格式是一种用于存储序列信息的简单格式，广泛应用于核酸（DNA/RNA）和蛋白质序列的存储。它主要由两个部分组成：

描述行：以“>`”符号开头，包含序列的描述信息，如名称、来源等。
序列数据：实际的核酸或蛋白质序列，可以包含空格，官方建议每行不超过120字符，通常为70到80字符。实际上，许多程序在处理时会忽略空格和换行符。

示例

人类血红蛋白α亚基的蛋白质序列：

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR

P69905 是 UniRef 数据库中的编号。
HBA_HUMAN 是序列简称，后面的文字描述了序列的详细信息。
序列部分用单字母表示氨基酸。

FASTQ 格式

FASTQ 格式是用于存储测序数据的格式，包含测序质量信息，由四行组成：

序列标识：以“@”开始，包含测序时的坐标等信息。
序列内容：表示测序得到的碱基序列，使用 ATCGN 表示。
描述分隔符：以“+”开始，后面可能跟有附加信息。
质量分数：每个字符对应序列中相应位置的测序质量。

示例

Illumina 平台的测序数据：

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KFK<F,AFKKKKK7FFK77<KFK,&<F7K,,7AFF<FF7FKK7AA,7<FA,,

第一行包含了测序设备的名称和读取的坐标信息。
第二行是碱基序列。
第四行是对应位置碱基的质量值。

计算质量值的方法

计算公式：Q = -10 * log10§，其中 P 是测序错误概率。
Phred 分数：Q 值加上 33 或 64 转换为 ASCII 字符。

使用 SRATools 转换文件格式

SRATools 提供了 fastq-dump 命令来转换 SRA 格式文件到 FASTQ 格式。常用参数包括：

--split-3：分割双端测序数据为两个文件。
--gzip：压缩输出文件为 gzip 格式。
-O：指定输出路径。

示例命令

fastq-dump --gzip --split-3 -O path -A accession

使用 fasterq-dump 提高转换速度

随着数据量的增加，fastq-dump 的速度可能较慢，因此推荐使用 fasterq-dump 软件进行数据格式的转换。

下载和安装

# 软件下载地址
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.7/sratoolkit.3.0.7-ubuntu64.tar.gz

# 解压
tar -zxvf sratoolkit.3.0.7-ubuntu64.tar.gz

使用方法

fasterq-dump --split-3 -e 40 your_accession_file

其中的 -e 指定线程数。