一站式转录组数据分析流程的试用(hppRNA)

发表该流程的文章题目是hppRNA-a Snakemake-based handy parameter-free pipeline for RNA-Seq analysis of numerous samples. 该流程涵盖了6个核心流程,分别是:

  • Tophat-Cufflink-Cuffdiff
  • Subread-featureCounts-DESeq2
  • STAR-RSEM-EBSeq
  • Bowtie-eXpress-edgeR
  • kallisto-sleuth
  • HISAT-StringTie-Ballgown

该流程做的很全面,同时也很精细,并且细数了以前发表的22个流程的不足,分别是Chipster, wapRNA, PRADA, RseqFlow and RobiNA,RSEQtools,TRAPLINE ,TCW,ArrayExpressHTS and easyRNASeq,NGSUtils, ViennaNGS and S-MART ,RAP and FX ,QuickNGS ,ExpressionPlot ,GeneProf ,GenomeSpace ,Galaxy

下载并且安装该流程

cd ~/biosoft
mkdir hppRNA &&  cd hppRNA
wget https://sourceforge.net/projects/hpprna/files/hppRNA_v1.3.2.zip 
unzip hppRNA_v1.3.2.zip 

step1:设置流程运行环境

mkdir -p ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software
cd ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software
perl ~/biosoft/hppRNA/hppRNA_v1.3.2/main_script/generate_hppRNA_installation.pl -i ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software  -o hppRNA_installation_script.sh
nohup bash  ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software/hppRNA_installation_script.sh & 

这个脚本会自动下载所需要的全部软件,还有hg19/mm10这两个参考基因组相关数据,但是需要自己新建 hppRNA_software 这个文件夹来存放下载的软件。唯一例外的是GATK需要自己下载,因为这个软件是受版权保护的,需要自行注册才可以申请下载。

软件安装好之后,用作者提供的软件生成一个软件目录文件

perl generate_path.pl -i  ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software  -o path.txt

step2:准备fastq测序数据

单端或者双端的原始fastq测序数据均可,但是双端数据的后缀需要一致,如下:

ERR315352.R1.fastq ERR315352.R2.fastq
ERR315391.R1.fastq ERR315391.R2.fastq
T_S517N701.fastq
T_S517N702.fastq
T_S517N703.fastq

很容易可以看出作者给的测试数据是 E-MTAB-2836 - RNA-seq of coding RNA from tissue samples of 122 human individuals representing 32 different tissues 所以可以自行下载其fastq文件。这里也选择3个testis和3个brain的数据。下载后放在特定的文件夹里面,是整个流程的工作目录。

这个文件里面存放着该项目 E-MTAB-2836 的所有测序数据,

mkdir -p ~/biosoft/hppRNA/hppRNA_v1.3.2/test
cd ~/biosoft/hppRNA/hppRNA_v1.3.2/test
wget https://www.ebi.ac.uk/arrayexpress/files/E-MTAB-2836/E-MTAB-2836.sdrf.txt

得到的下载数据如下:

testis_7e	ERS327016	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315415/ERR315415_1.fastq.gz
testis_7e	ERS327016	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315415/ERR315415_2.fastq.gz
testis_7b	ERS327017	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315456/ERR315456_1.fastq.gz
testis_7b	ERS327017	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315456/ERR315456_2.fastq.gz
testis_7f	ERS327023	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315492/ERR315492_1.fastq.gz
testis_7f	ERS327023	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315492/ERR315492_2.fastq.gz
brain_3c	ERS326996	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315455/ERR315455_1.fastq.gz
brain_3c	ERS326996	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315455/ERR315455_2.fastq.gz
brain_3b	ERS327019	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315477/ERR315477_1.fastq.gz
brain_3b	ERS327019	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315477/ERR315477_2.fastq.gz
brain_a	ERS327024	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315432/ERR315432_1.fastq.gz
brain_a	ERS327024	ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315432/ERR315432_2.fastq.gz

step3:填写配置表格

包括软件参数信息,样本描述信息,差异分析的group信息。这些信息的填写指导在软件自带的测试数据可以找到,excel打开仔细填写,最后保存为tab键分割文本文件即可。

配置好的文件,会被perl程序generate_hppRNA_main_snakemake.pl 调用,首先会输出这个流程需要的每个步骤的脚本。

特别注意:每个步骤都要生成自己的配置文件 其中Analysis_type有"protein-coding", “known lncRNA”, “novel lncRNA” or “circRNA” 这2种,核心流程有6个!只有分析"protein-coding", “known lncRNA”,才有核心流程的选择。“novel lncRNA” or "circRNA"分析比较特殊一点。

工作目录就是你的fastq文件所在的目录。

perl generate_hppRNA_main_snakemake.pl -i workflow_1_protein_coding_paired.txt -o workflow_1_protein_coding_paired.snakemake

perl generate_hppRNA_main_snakemake.pl -i workflow_2_protein_coding_paired.txt -o workflow_2_protein_coding_paired.snakemake

perl generate_hppRNA_main_snakemake.pl -i workflow_3_protein_coding_paired.txt -o workflow_3_protein_coding_paired.snakemake


perl generate_hppRNA_main_snakemake.pl -i workflow_4_protein_coding_paired.txt -o workflow_4_protein_coding_paired.snakemake

perl generate_hppRNA_main_snakemake.pl -i workflow_5_protein_coding_paired.txt -o workflow_5_protein_coding_paired.snakemake

perl generate_hppRNA_main_snakemake.pl -i workflow_6_protein_coding_paired.txt -o workflow_6_protein_coding_paired.snakemake

单端测序,双端测序数据运行方法一致,关键就是配置文件的填写。

提交任务

如果是集群,那么提交任务需要配置qsub或者condor。

如果是单机服务器,那么直接把软件的环境变量生效,然后运行流程的各个步骤的snakemake文件即可

snakemake -p --cores 32 /data/hppRNA_data/workflow_1_protein_coding_paired.snakemake

转载自生信技能树论坛

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值