linux转录组分析,完整转录组RNAseq分析流程(tophat2+cufflink+cuffdiff)

前一段时间跟着孟浩巍大神的视频学习,在自己的小破笔记本上还是跑完了整个RNAseq差异表达的分析流程( tophat2 + cufflink + cuffdiff )虽然这个流程比较老了,现在做分析一般使用的都是 HTseq + DESeq2 等其他的流程,但是作为入门的知识还是比较容易理解,这篇文章先更一下流程,后面会再更一篇 安装 Linux 子系统(已更新),安装 anconda 和一些分析软件(已更新)的流程,凑一个真正完整的入门生信的操作流程。

火山图、热图在 R 中可视化部分已更新

我的电脑配置,真的是战五渣。

0ab0e2aeca14

电脑配置

但还是在一天内跑完了整个流程

运行环境python2.7

原始数据如下:

0ab0e2aeca14

原始文件

包括四个文件:

bowtie2_hg19 index 文件(这里已经提前使用bowtie2建立好了index文件可以直接使用)

raw_data illumina 双端测序原始文件(对照组和实验组各两个,就是八条测序文件)

rRNA rRNA index 序列文件(用于去除 rRNA 的影响)

分析流程

RNA-seq的原始数据(raw data)的质量评估

raw data的过滤和清除不可信数据(clean reads)

reads回帖基因组和转录组(alignment)

计数(count )

基因差异分析(Gene DE)

数据的下游分析(这次先不做这个,下次会单独写)

下面开始正式分析

1、fastqc质控

mkdir fastqc_result.raw #(建立输出文件夹)

fastqc -q -t 3 -o ../fastqc_result.raw/ *.fq.gz & #(使用fastqc质控软件,对所有raw_data进行质控检测)

2、multiqc整合质控文件(因为得到很多的质控检测结果,需要整合)

multiqc . #(这一步就是对 fastqc_reault 文件夹下所有文件进行整合)

0ab0e2aeca14

整合后文件

3、根据质控结果,使用fastx_tolltik去除不良序列

zcat hela_ctrl_rep1_R1.fq.gz | fastx_trimmer -f 11 -l 140 -z -o out_rep1_R1.fq.gz &

zcat hela_ctrl_rep2_R1.fq.gz | fastx_trimmer -f 11 -l 140 -z -o out_rep2_R1.fq.gz &

zcat hela_ctrl_rep2_R2.fq.gz | fastx_trim

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值