前一段时间跟着孟浩巍大神的视频学习,在自己的小破笔记本上还是跑完了整个RNAseq差异表达的分析流程( tophat2 + cufflink + cuffdiff )虽然这个流程比较老了,现在做分析一般使用的都是 HTseq + DESeq2 等其他的流程,但是作为入门的知识还是比较容易理解,这篇文章先更一下流程,后面会再更一篇 安装 Linux 子系统(已更新),安装 anconda 和一些分析软件(已更新)的流程,凑一个真正完整的入门生信的操作流程。
火山图、热图在 R 中可视化部分已更新
我的电脑配置,真的是战五渣。
电脑配置
但还是在一天内跑完了整个流程
运行环境python2.7
原始数据如下:
原始文件
包括四个文件:
bowtie2_hg19 index 文件(这里已经提前使用bowtie2建立好了index文件可以直接使用)
raw_data illumina 双端测序原始文件(对照组和实验组各两个,就是八条测序文件)
rRNA rRNA index 序列文件(用于去除 rRNA 的影响)
分析流程
RNA-seq的原始数据(raw data)的质量评估
raw data的过滤和清除不可信数据(clean reads)
reads回帖基因组和转录组(alignment)
计数(count )
基因差异分析(Gene DE)
数据的下游分析(这次先不做这个,下次会单独写)
下面开始正式分析
1、fastqc质控
mkdir fastqc_result.raw #(建立输出文件夹)
fastqc -q -t 3 -o ../fastqc_result.raw/ *.fq.gz & #(使用fastqc质控软件,对所有raw_data进行质控检测)
2、multiqc整合质控文件(因为得到很多的质控检测结果,需要整合)
multiqc . #(这一步就是对 fastqc_reault 文件夹下所有文件进行整合)
整合后文件
3、根据质控结果,使用fastx_tolltik去除不良序列
zcat hela_ctrl_rep1_R1.fq.gz | fastx_trimmer -f 11 -l 140 -z -o out_rep1_R1.fq.gz &
zcat hela_ctrl_rep2_R1.fq.gz | fastx_trimmer -f 11 -l 140 -z -o out_rep2_R1.fq.gz &
zcat hela_ctrl_rep2_R2.fq.gz | fastx_trim