FASTA 格式
FASTA 格式是一种用于存储序列信息的简单格式,广泛应用于核酸(DNA/RNA)和蛋白质序列的存储。它主要由两个部分组成:
- 描述行:以“>`”符号开头,包含序列的描述信息,如名称、来源等。
- 序列数据:实际的核酸或蛋白质序列,可以包含空格,官方建议每行不超过120字符,通常为70到80字符。实际上,许多程序在处理时会忽略空格和换行符。
示例
人类血红蛋白α亚基的蛋白质序列:
>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR
P69905
是 UniRef 数据库中的编号。HBA_HUMAN
是序列简称,后面的文字描述了序列的详细信息。- 序列部分用单字母表示氨基酸。
FASTQ 格式
FASTQ 格式是用于存储测序数据的格式,包含测序质量信息,由四行组成:
- 序列标识:以“@”开始,包含测序时的坐标等信息。
- 序列内容:表示测序得到的碱基序列,使用 ATCGN 表示。
- 描述分隔符:以“+”开始,后面可能跟有附加信息。
- 质量分数:每个字符对应序列中相应位置的测序质量。
示例
Illumina 平台的测序数据:
@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KFK<F,AFKKKKK7FFK77<KFK,&<F7K,,7AFF<FF7FKK7AA,7<FA,,
- 第一行包含了测序设备的名称和读取的坐标信息。
- 第二行是碱基序列。
- 第四行是对应位置碱基的质量值。
计算质量值的方法
- 计算公式:Q = -10 * log10§,其中 P 是测序错误概率。
- Phred 分数:Q 值加上 33 或 64 转换为 ASCII 字符。
使用 SRATools 转换文件格式
SRATools 提供了 fastq-dump
命令来转换 SRA 格式文件到 FASTQ 格式。常用参数包括:
--split-3
:分割双端测序数据为两个文件。--gzip
:压缩输出文件为 gzip 格式。-O
:指定输出路径。
示例命令
fastq-dump --gzip --split-3 -O path -A accession
使用 fasterq-dump 提高转换速度
随着数据量的增加,fastq-dump
的速度可能较慢,因此推荐使用 fasterq-dump
软件进行数据格式的转换。
下载和安装
# 软件下载地址
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.7/sratoolkit.3.0.7-ubuntu64.tar.gz
# 解压
tar -zxvf sratoolkit.3.0.7-ubuntu64.tar.gz
使用方法
fasterq-dump --split-3 -e 40 your_accession_file
- 其中的
-e
指定线程数。
通过这些步骤,你可以高效地获取和处理 RNA-seq 数据,确保数据准备的准确性和高效性。