最近在做LncRNA分析流程,大致分析要点如下:
1,已知转录本的表达定量,差异分析:
1.1利用RSEM以Ensembl的参考基因组序列及gtf注释文件为参考,计算样品中所有已知RNA的表达;
以小鼠为例 参考基因组序列下载方法如下(shell脚本):
for i in $(seq 1 19) X Y MT;
do echo $i;
done
gunzip *.gz
for i in $(seq 1 19) X Y MT;
do cat Mus_musculus.GRCm38.dna.chromosome.${i}.fa >> mm10.fasta;
done
rm -fr *.fa
1.3分析完成后,根据gtf文件中“gene_type”信息注释表达结果
1.4 KEGG,GO,GSEA富集分析
2.利用HISAT2进行比对
2.1 hisat2-build建立索引
2.2 hisat2比对
3.利用cufflinks进行转录本组装,并筛选候选新转录本
3.1 cufflinks组装得到每个样品的转录本组装结果transcript.gtf
3.2 组装结果过滤,过滤参数如下:
1)FPKM>=0.5
2)Coverage>3
3)Length>200
3.3 利用cuffmerge将所有样品过滤之后的转录本合并:
ls *transcripts.gtf >mergelist.txt #将过滤后的“transcripts.