上游分析常涉及到对原始数据的处理和分析。常见的文件格式包括以下几种:
1. **FASTQ**:
- **描述**:存储原始的测序数据,包括核酸序列和质量信息。
- **用途**:常用于初步的序列分析和质量控制。
- **格式**:每条序列由四行组成:序列标识符、序列本身、质量标识符(通常是一个 "+" 号)、质量分数。
- **扩展名**:`.fastq`, `.fq`
```
@SEQ_ID
GATTTGGGGTTTTCCCAGTCACGAC
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**
```
2. **FASTA**:
- **描述**:存储生物序列信息(DNA、RNA、蛋白质)。
- **用途**:常用于参考序列的存储和注释。
- **格式**:每条序列由两行组成:以 ">" 开头的描述行和序列本身。
- **扩展名**:`.fasta`, `.fa`, `.fna`(核酸序列), `.faa`(蛋白质序列)
```
>SEQ_ID
GATTTGGGGTTTTCCCAGTCACGAC
```
3. **SAM/BAM**:
- **描述**:存储对参考基因组进行比对的序列。
- **用途**:用于比对结果的存储和分析。
- **格式**:SAM 是文本格式,BAM 是其二进制形式。
- **扩展名**:`.sam`, `.bam`
```
SAM:
@SQ SN:ref LN:45
r001 99 ref 7 30 8M2I4M1D3M = 37 39 AGCTTAGCTAGCTACCTATATCTTGGTCTTGGCCG * XX:B:S,12561,2,20,112
```
4. **VCF**:
- **描述**:存储变异信息(SNPs、Indels)。
- **用途**:用于变异检测结果的存储和共享。
- **格式**:每条记录表示一个变异位点,包括染色体位置、变异类型等信息。
- **扩展名**:`.vcf`, `.bcf`(二进制形式)
```
##fileformat=VCFv4.2
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001
20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5 GT 0|1
```
5. **GTF/GFF**:
- **描述**:存储基因组注释信息。
- **用途**:用于基因结构、功能注释的存储和分析。
- **格式**:每条记录包含基因或注释的详细信息。
- **扩展名**:`.gtf`, `.gff`, `.gff3`
```
GTF:
chr1 havana gene 11869 14412 . + . gene_id "ENSG00000223972"; gene_name "DDX11L1";
```
6. **BED**:
- **描述**:存储基因组区域的信息。
- **用途**:用于定义基因组上的特定区域,如基因、外显子、转录本等。
- **格式**:每条记录包含染色体、起始位置、终止位置等信息。
- **扩展名**:`.bed`
```
chr7 127471196 127471697
chr7 127472363 127473530
```
这些文件格式适用于不同的上游分析步骤。从原始数据的存储(如 FASTQ),到序列的比对(如 SAM/BAM),再到变异检测(如 VCF),以及基因组注释(如 GTF/GFF、BED)。