FASTA 和 FASTQ 格式详解|SRA转fastq

FASTA 格式

FASTA 格式是一种用于存储序列信息的简单格式,广泛应用于核酸(DNA/RNA)和蛋白质序列的存储。它主要由两个部分组成:

  • 描述行:以“>`”符号开头,包含序列的描述信息,如名称、来源等。
  • 序列数据:实际的核酸或蛋白质序列,可以包含空格,官方建议每行不超过120字符,通常为70到80字符。实际上,许多程序在处理时会忽略空格和换行符。
示例

人类血红蛋白α亚基的蛋白质序列:

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR
  • P69905 是 UniRef 数据库中的编号。
  • HBA_HUMAN 是序列简称,后面的文字描述了序列的详细信息。
  • 序列部分用单字母表示氨基酸。
FASTQ 格式

FASTQ 格式是用于存储测序数据的格式,包含测序质量信息,由四行组成:

  • 序列标识:以“@”开始,包含测序时的坐标等信息。
  • 序列内容:表示测序得到的碱基序列,使用 ATCGN 表示。
  • 描述分隔符:以“+”开始,后面可能跟有附加信息。
  • 质量分数:每个字符对应序列中相应位置的测序质量。
示例

Illumina 平台的测序数据:

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KFK<F,AFKKKKK7FFK77<KFK,&<F7K,,7AFF<FF7FKK7AA,7<FA,,
  • 第一行包含了测序设备的名称和读取的坐标信息。
  • 第二行是碱基序列。
  • 第四行是对应位置碱基的质量值。
计算质量值的方法
  • 计算公式:Q = -10 * log10§,其中 P 是测序错误概率。
  • Phred 分数:Q 值加上 33 或 64 转换为 ASCII 字符。
使用 SRATools 转换文件格式

SRATools 提供了 fastq-dump 命令来转换 SRA 格式文件到 FASTQ 格式。常用参数包括:

  • --split-3:分割双端测序数据为两个文件。
  • --gzip:压缩输出文件为 gzip 格式。
  • -O:指定输出路径。
示例命令
fastq-dump --gzip --split-3 -O path -A accession
使用 fasterq-dump 提高转换速度

随着数据量的增加,fastq-dump 的速度可能较慢,因此推荐使用 fasterq-dump 软件进行数据格式的转换。

下载和安装
# 软件下载地址
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.7/sratoolkit.3.0.7-ubuntu64.tar.gz

# 解压
tar -zxvf sratoolkit.3.0.7-ubuntu64.tar.gz
使用方法
fasterq-dump --split-3 -e 40 your_accession_file
  • 其中的 -e 指定线程数。

通过这些步骤,你可以高效地获取和处理 RNA-seq 数据,确保数据准备的准确性和高效性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值