生信操作文件类型

不断进步的咕咕怪

已于 2024-09-13 19:39:33 修改

阅读量582

点赞数 20

分类专栏：生信入门操作文章标签：笔记

于 2024-09-12 23:15:01 首次发布

本文链接：https://blog.csdn.net/lcl13193673272/article/details/142168976

版权

生信入门操作专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在你操作过程中涉及到了多个文件类型，每种文件都有其特定的用途和作用。下面介绍一下这些文件类型：

1. SRA 文件 (.sra)

用途：SRA（Sequence Read Archive）文件存储了高通量测序（HTS）数据，包括来自 DNA 和 RNA 的原始读数数据。
来源：可以从 NCBI 的 SRA 数据库中下载。
操作：通过 fastq-dump 或 prefetch 将其转换为 FASTQ 格式，进行进一步的比对和分析。

2. FASTQ 文件 (.fastq)

查看fastq文件命令less demo.fastq

用途：存储了测序数据的读数，包括核苷酸序列和质量分数（每一碱基的测序精确度）。每条读数包含 4 行。

第一行以@开头，包含读段的标识符和描述信息。
第二行是测序读段的序列。
第三行以+开头，通常与第一行的描述信息相同，但也可以是任意内容。
第四行是质量分数，每个字符对应第二行序列中的一个碱基，表示该碱基的测序质量。

操作：用于与参考基因组进行比对，常见的工具如 BWA 会使用 FASTQ 文件进行序列比对。

@SRR14879760.6 A00821:293:H35JJDSXY:2:1101:27579:1031 length=300
GAATATCCACTTGCAGACTTTACAAACAGAGTGTTTCCTAACTGCTCTATGAGAAGAAAAGTTAAACTCTGTGAGTTGAACGCACACATCACAAAAGATTTTCTGAGAATCATTCTGTCTAGTCTTTATATGAAGATAGTTTCCTTTTCTGATTTCTTCATATTCTGCTAGACAGAAGAATTCTCAGTAACTTCCTTGTGTTGTGTGTATTCAACTCACAGAGTTGAACGATCCTTTACACAGAGCAGACTTGAAACACTCTTTTTGTGGAATTTGCAAGTGGAGATTTCAGCCGCTTTG
+SRR14879760.6 A00821:293:H35JJDSXY:2:1101:27579:1031 length=300
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFF,FFFFFFFFFFFFF:F:FFFFF,FFFFF:,FFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFF:,FFFFFFFFFFFFFFFFFFFFFFFFFF:F,F:FFFFFFFF,FFFFFFFFFFFFFFFF:FF:FF,F:F

3. FASTA 文件 (.fa 或 .fasta)

命令行指令查看fasta文件 cat your_file.fasta | less

用途：存储参考基因组序列或特定基因的序列信息。文件中包含以 > 开头的序列标识符，后面是实际的核苷酸序列。
操作：通过 BWA 或 samtools faidx 可以进行索引或提取特定区域的序列。
格式示例：

>chr20:2652632-2658393
AGCTTGGGCC...

4. SAM 文件 (.sam)

查看sam文件内容samtools view yourfile.sam | less

可选字段

SAM文件还可以包含多个可选字段，这些字段以TAG:TYPE:VALUE的形式出现。常见的可选字段包括：

用途：存储比对信息，包含序列读数如何比对到参考基因组上的详细信息。SAM 文件是人类可读的文本格式，常用于初步比对结果。
操作：由 BWA MEM 生成，包含每条读数的比对位置、质量分数等信息。通常在后续处理中会被转换为更紧凑的 BAM 格式。
SAM（Sequence Alignment/Map）文件格式是一种用于存储高通量测序数据比对结果的标准格式。SAM文件包含了测序读取（reads）与参考基因组比对后的详细信息。以下是SAM文件格式的详细说明：

SAM文件格式字段

SAM文件由多行组成，每行代表一个比对结果。每行包含11个强制字段和多个可选字段。

强制字段（11列）
QNAME: 读取名称（read name），与BAM文件中的读取名称相同。
FLAG: 标志位（flag），一个16位的整数，包含多个标志位，表示读取的各种属性（如是否配对、是否反向互补等）。
RNAME: 参考序列名称（reference sequence name），比对到的参考序列名称。
POS: 比对位置（position），读取在参考序列上的起始位置。
MAPQ: 映射质量（mapping quality），Phred格式的质量分数，表示映射的可靠性。
CIGAR: CIGAR字符串（Compact Idiosyncratic Gapped Alignment Report），描述读取与参考序列比对的详细情况，包括匹配、插入、删除等。
RNEXT: 下一个读取的参考序列名称（reference name of the mate/next read）。
PNEXT: 下一个读取的位置（position of the mate/next read）。
TLEN: 观察到的模板长度（observed template length），配对读取之间的距离。
SEQ: 序列（sequence），测序读取的核苷酸序列。
QUAL: 质量分数（base quality），每个碱基的质量分数，Phred格式。
NM: 编辑距离（number of mismatches），表示读取与参考序列之间的编辑距离。
MD: 匹配和缺失信息（mismatching positions），描述读取与参考序列之间的不匹配位置。
AS: 对齐得分（alignment score），比对算法计算的得分。
XS: 拼接得分（cross-strand score），用于检测反义链的比对。
SA: 辅助对齐信息（supplementary alignment），表示辅助比对的信息。
XA: 替代比对信息（alternative alignments），表示其他可能的比对结果。

SRR14879760.1   0   chr20   2652632   60   100M   *   0   0   AGCTTGGGCC...

5. BAM 文件 (.bam)

用途：与 SAM 文件相同，但以二进制格式存储，因此更高效且占用空间较少。通常用于大规模数据处理。
操作：通过 samtools view 可以将 SAM 转换为 BAM。之后可以用 samtools sort 对其排序，也可以生成索引文件（.bai）。
用途：用于下游的分析步骤，如生成覆盖度文件、变异检测等。

6. BAM 索引文件 (.bai)

用途：为 BAM 文件生成的索引文件，允许工具快速访问 BAM 文件中的特定位置，而无需读取整个文件。
操作：通过 samtools index 生成。

7. bedGraph 文件 (.bedGraph)

用途：以文本格式存储基因组覆盖度信息，描述基因组中每个位置的读数覆盖情况（覆盖深度）。
操作：通过 samtools depth 或 bedtools genomecov 从 BAM 文件生成，常用于将覆盖度数据导出。
格式示例：

chr20  2652631  2652632  20
chr20  2652632  2652633  18

8. BigWig 文件 (.bw 或 .bigWig)

用途：是一种紧凑的二进制格式，专门用于可视化基因组覆盖度数据。相比 bedGraph 文件，BigWig 文件占用更小的空间，且读取速度更快，常用于浏览器如 UCSC Genome Browser。
操作：由 bedGraph 文件转换而来，通过 bedGraphToBigWig 工具生成。
应用：通常用于基因组浏览器中的覆盖度可视化。

9. 覆盖度文件 (.txt 或 .tsv)

基因组覆盖度

基因组覆盖度是指测序获得的序列占整个基因组的比例。这个比例越高，意味着测序数据对基因组的覆盖越全面，从而能够更准确地反映基因组的组成和结构。

基因组覆盖度的作用

提高测序准确度：较高的基因组覆盖度可以提高测序结果的准确性，减少由于测序深度不足导致的变异检测误差。
发现罕见变异：通过提高覆盖度，可以更有效地发现基因组中的罕见变异，这对于研究遗传疾病、肿瘤等疾病具有重要意义。
全面评估基因组：基因组覆盖度的提高有助于全面评估基因组的组成，包括基因、非编码区域等，从而更好地理解基因组的生物学功能。