生信操作文件类型

在你操作过程中涉及到了多个文件类型,每种文件都有其特定的用途和作用。下面介绍一下这些文件类型:

1. SRA 文件 (.sra)

  • 用途SRA(Sequence Read Archive)文件存储了高通量测序(HTS)数据,包括来自 DNA 和 RNA 的原始读数数据。
  • 来源:可以从 NCBI 的 SRA 数据库中下载。
  • 操作:通过 fastq-dumpprefetch 将其转换为 FASTQ 格式,进行进一步的比对和分析。

2. FASTQ 文件 (.fastq)

查看fastq文件命令less demo.fastq

用途:存储了测序数据的读数,包括核苷酸序列和质量分数(每一碱基的测序精确度)。每条读数包含 4 行。

  • 第一行以@开头,包含读段的标识符和描述信息。
  • 第二行是测序读段的序列。
  • 第三行以+开头,通常与第一行的描述信息相同,但也可以是任意内容。
  • 第四行是质量分数,每个字符对应第二行序列中的一个碱基,表示该碱基的测序质量。

操作:用于与参考基因组进行比对,常见的工具如 BWA 会使用 FASTQ 文件进行序列比对。

@SRR14879760.6 A00821:293:H35JJDSXY:2:1101:27579:1031 length=300
GAATATCCACTTGCAGACTTTACAAACAGAGTGTTTCCTAACTGCTCTATGAGAAGAAAAGTTAAACTCTGTGAGTTGAACGCACACATCACAAAAGATTTTCTGAGAATCATTCTGTCTAGTCTTTATATGAAGATAGTTTCCTTTTCTGATTTCTTCATATTCTGCTAGACAGAAGAATTCTCAGTAACTTCCTTGTGTTGTGTGTATTCAACTCACAGAGTTGAACGATCCTTTACACAGAGCAGACTTGAAACACTCTTTTTGTGGAATTTGCAAGTGGAGATTTCAGCCGCTTTG
+SRR14879760.6 A00821:293:H35JJDSXY:2:1101:27579:1031 length=300
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFF,FFFFFFFFFFFFF:F:FFFFF,FFFFF:,FFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFF:,FFFFFFFFFFFFFFFFFFFFFFFFFF:F,F:FFFFFFFF,FFFFFFFFFFFFFFFF:FF:FF,F:F

3. FASTA 文件 (.fa 或 .fasta)

命令行指令查看fasta文件 cat your_file.fasta | less

  • 用途:存储参考基因组序列或特定基因的序列信息。文件中包含以 > 开头的序列标识符,后面是实际的核苷酸序列。
  • 操作:通过 BWAsamtools faidx 可以进行索引或提取特定区域的序列。
  • 格式示例
>chr20:2652632-2658393
AGCTTGGGCC...

4. SAM 文件 (.sam)

查看sam文件内容samtools view yourfile.sam | less

可选字段

SAM文件还可以包含多个可选字段,这些字段以TAG:TYPE:VALUE的形式出现。常见的可选字段包括:

  • 用途:存储比对信息,包含序列读数如何比对到参考基因组上的详细信息。SAM 文件是人类可读的文本格式,常用于初步比对结果。
  • 操作:由 BWA MEM 生成,包含每条读数的比对位置、质量分数等信息。通常在后续处理中会被转换为更紧凑的 BAM 格式。
  • SAM(Sequence Alignment/Map)文件格式是一种用于存储高通量测序数据比对结果的标准格式。SAM文件包含了测序读取(reads)与参考基因组比对后的详细信息。以下是SAM文件格式的详细说明:

    SAM文件格式字段

    SAM文件由多行组成,每行代表一个比对结果。每行包含11个强制字段和多个可选字段。

    强制字段(11列)
  • QNAME: 读取名称(read name),与BAM文件中的读取名称相同。
  • FLAG: 标志位(flag),一个16位的整数,包含多个标志位,表示读取的各种属性(如是否配对、是否反向互补等)。
  • RNAME: 参考序列名称(reference sequence name),比对到的参考序列名称。
  • POS: 比对位置(position),读取在参考序列上的起始位置。
  • MAPQ: 映射质量(mapping quality),Phred格式的质量分数,表示映射的可靠性。
  • CIGAR: CIGAR字符串(Compact Idiosyncratic Gapped Alignment Report),描述读取与参考序列比对的详细情况,包括匹配、插入、删除等。
  • RNEXT: 下一个读取的参考序列名称(reference name of the mate/next read)。
  • PNEXT: 下一个读取的位置(position of the mate/next read)。
  • TLEN: 观察到的模板长度(observed template length),配对读取之间的距离。
  • SEQ: 序列(sequence),测序读取的核苷酸序列。
  • QUAL: 质量分数(base quality),每个碱基的质量分数,Phred格式。
  • NM: 编辑距离(number of mismatches),表示读取与参考序列之间的编辑距离。
  • MD: 匹配和缺失信息(mismatching positions),描述读取与参考序列之间的不匹配位置。
  • AS: 对齐得分(alignment score),比对算法计算的得分。
  • XS: 拼接得分(cross-strand score),用于检测反义链的比对。
  • SA: 辅助对齐信息(supplementary alignment),表示辅助比对的信息。
  • XA: 替代比对信息(alternative alignments),表示其他可能的比对结果。
SRR14879760.1   0   chr20   2652632   60   100M   *   0   0   AGCTTGGGCC...

5. BAM 文件 (.bam)

  • 用途:与 SAM 文件相同,但以二进制格式存储,因此更高效且占用空间较少。通常用于大规模数据处理。
  • 操作:通过 samtools view 可以将 SAM 转换为 BAM。之后可以用 samtools sort 对其排序,也可以生成索引文件(.bai)。
  • 用途:用于下游的分析步骤,如生成覆盖度文件、变异检测等。

6. BAM 索引文件 (.bai)

  • 用途:为 BAM 文件生成的索引文件,允许工具快速访问 BAM 文件中的特定位置,而无需读取整个文件。
  • 操作:通过 samtools index 生成。

7. bedGraph 文件 (.bedGraph)

  • 用途:以文本格式存储基因组覆盖度信息,描述基因组中每个位置的读数覆盖情况(覆盖深度)。
  • 操作:通过 samtools depthbedtools genomecovBAM 文件生成,常用于将覆盖度数据导出。
  • 格式示例
chr20  2652631  2652632  20
chr20  2652632  2652633  18

8. BigWig 文件 (.bw 或 .bigWig)

  • 用途:是一种紧凑的二进制格式,专门用于可视化基因组覆盖度数据。相比 bedGraph 文件,BigWig 文件占用更小的空间,且读取速度更快,常用于浏览器如 UCSC Genome Browser
  • 操作:由 bedGraph 文件转换而来,通过 bedGraphToBigWig 工具生成。
  • 应用:通常用于基因组浏览器中的覆盖度可视化。

9. 覆盖度文件 (.txt 或 .tsv)

基因组覆盖度

基因组覆盖度是指测序获得的序列占整个基因组的比例。这个比例越高,意味着测序数据对基因组的覆盖越全面,从而能够更准确地反映基因组的组成和结构。

基因组覆盖度的作用

  • 提高测序准确度:较高的基因组覆盖度可以提高测序结果的准确性,减少由于测序深度不足导致的变异检测误差。
  • 发现罕见变异:通过提高覆盖度,可以更有效地发现基因组中的罕见变异,这对于研究遗传疾病、肿瘤等疾病具有重要意义。
  • 全面评估基因组:基因组覆盖度的提高有助于全面评估基因组的组成,包括基因、非编码区域等,从而更好地理解基因组的生物学功能。
  • 用途:存储从 BAM 文件中提取的覆盖度信息,列出基因组中每个位置的覆盖深度。
  • 操作:通过 samtools depth 命令生成,可以进一步转换为 bedGraph 文件。
  • 格式示例
chr20  2652632  20
chr20  2652633  18

10. 基因组大小文件 (.sizes)

  • 用途:存储每条染色体的大小信息,通常与 bedGraphToBigWig 工具一起使用,以便正确转换为 BigWig 格式。
  • 操作:可以手动创建或通过 faidx 命令生成。
  • 格式示例
chr20   64444167

总结:

在整个操作流程中,你会接触到多个文件类型,从原始的测序数据(SRA、FASTQ)到比对文件(SAM、BAM),以及用于可视化的覆盖度文件(bedGraph、BigWig)。通过这些文件类型的协作,能够完成从数据比对到最终基因组浏览器可视化的完整过程。

常用命令

conda remove samtools #卸载某个包

conda clean --all #清理缓存

包/工具的安装

samtools包

安装:base虚拟环境、biostools_env虚拟环境

作用:从下载的人类全基因组序列中截取所需序列

bwa工具

安装:直接安装系统

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值