生信小白记录1-文件格式

上游分析常涉及到对原始数据的处理和分析。常见的文件格式包括以下几种:

1. **FASTQ**:
   - **描述**:存储原始的测序数据,包括核酸序列和质量信息。
   - **用途**:常用于初步的序列分析和质量控制。
   - **格式**:每条序列由四行组成:序列标识符、序列本身、质量标识符(通常是一个 "+" 号)、质量分数。
   - **扩展名**:`.fastq`, `.fq`
   
   ```
   @SEQ_ID
   GATTTGGGGTTTTCCCAGTCACGAC
   +
   !''*((((***+))%%%++)(%%%%).1***-+*''))**
   ```

2. **FASTA**:
   - **描述**:存储生物序列信息(DNA、RNA、蛋白质)。
   - **用途**:常用于参考序列的存储和注释。
   - **格式**:每条序列由两行组成:以 ">" 开头的描述行和序列本身。
   - **扩展名**:`.fasta`, `.fa`, `.fna`(核酸序列), `.faa`(蛋白质序列)
   
   ```
   >SEQ_ID
   GATTTGGGGTTTTCCCAGTCACGAC
   ```

3. **SAM/BAM**:
   - **描述**:存储对参考基因组进行比对的序列。
   - **用途**:用于比对结果的存储和分析。
   - **格式**:SAM 是文本格式,BAM 是其二进制形式。
   - **扩展名**:`.sam`, `.bam`
   
   ```
   SAM:
   @SQ    SN:ref    LN:45
   r001    99    ref    7    30    8M2I4M1D3M    =    37    39    AGCTTAGCTAGCTACCTATATCTTGGTCTTGGCCG    *    XX:B:S,12561,2,20,112
   ```

4. **VCF**:
   - **描述**:存储变异信息(SNPs、Indels)。
   - **用途**:用于变异检测结果的存储和共享。
   - **格式**:每条记录表示一个变异位点,包括染色体位置、变异类型等信息。
   - **扩展名**:`.vcf`, `.bcf`(二进制形式)
   
   ```
   ##fileformat=VCFv4.2
   ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
   #CHROM    POS    ID    REF    ALT    QUAL    FILTER    INFO    FORMAT    NA00001
   20    14370    rs6054257    G    A    29    PASS    NS=3;DP=14;AF=0.5    GT    0|1
   ```

5. **GTF/GFF**:
   - **描述**:存储基因组注释信息。
   - **用途**:用于基因结构、功能注释的存储和分析。
   - **格式**:每条记录包含基因或注释的详细信息。
   - **扩展名**:`.gtf`, `.gff`, `.gff3`
   
   ```
   GTF:
   chr1    havana    gene    11869    14412    .    +    .    gene_id "ENSG00000223972"; gene_name "DDX11L1";
   ```

6. **BED**:
   - **描述**:存储基因组区域的信息。
   - **用途**:用于定义基因组上的特定区域,如基因、外显子、转录本等。
   - **格式**:每条记录包含染色体、起始位置、终止位置等信息。
   - **扩展名**:`.bed`
   
   ```
   chr7    127471196    127471697
   chr7    127472363    127473530
   ```

这些文件格式适用于不同的上游分析步骤。从原始数据的存储(如 FASTQ),到序列的比对(如 SAM/BAM),再到变异检测(如 VCF),以及基因组注释(如 GTF/GFF、BED)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值