转录组测序
转录组测序分析可以分为referring sequencing有参转录组分析和de novo无参转录组分析。有参无参的意思是,有/无参考基因组。
1.获得测序数据,Fastq格式,称之为Raw data。
Fastq文件说明;每四行为一个单元。
第一行:序列名称
第二行:序列的碱基
第三行:序列名称,可以使用+代替
第四行:碱基的质量。
质量值是用下列的ASCII码表示的,目前使用的,都是Illumina1.8+对应的换算方式。
也就是L表示的那行:!是最低的质量,为0,而J是最高的质量,为41。以@为例,计算:查表可以知道 @ 对应的数值为64,但对于测序质量值来说,多了33(因为测序质量是从!开始用的),所以@ 对应的测序质量值应该为64-33=31。
2.质量检测(可以用Fastqc、Trimmomatic等)质控后的数据称为clean data
3.比对Mapping 。把它们和参考基因组序列进行比对,寻找每个reads的最佳匹配位置。可以使用
HISAT2,tophat2,STAR等软件
4.统计每个基因或者转录本的表达量(软件:HTSeq,RSEM等)
5.进行差异表达分析(edgeR, DEseq2, EBseq等)在正常条件和某种试剂处理的时候,出现了某些我们关心的特性,但是我们可能不知道这些特性的发生是什么机制。那我们可以通过寻找这些有变化的基因,分析它们大致是参与了什么过程的基因起了变化,就可以为进一步深入研究提供线索。