1:数据质量评估(fastqc)
2:比对(tophat2)
建立索引的命令:bowtie2-build genome.fa
*.bowtie2
比对命令:tophat2 -p 16 -G genome.gtf *.bowtie2
MTncRNA1_1.fastq MTncRNA1_2.fastq
3:组装(cufflinks)
cufflinks -o ./ -p 6 -g genome.gtf -u
accepted_hits.bam
4:合并(cuffmerge)
cuffmerge -g genome.gtf -s genome.fa -p 32
assemble
5:差异表达分析(cuffdiff)
cuffdiff -b genome.fa -p 32 -u merged.gtf -L
M1,M2,M3,W1,W2,W3 MTncRNA1.bam MTncRNA2.bam MTncRNA3.bam
WTncRNA1.bam WTncRNA2.bam WTncRNA3.bam(isoforms.count_tracking用于过滤lncrna,提供了覆盖度的信息,isoforms.fpkm_tracking和genes.fpkm_tracking用于trans预测,计算两者的相关性)
cuffdiff -b genome.fa -p
32 -u merged.gtf -L MT,WT MTncRNA1.bam,MTncRNA2.bam,MTncRNA3.bam
WTncRNA1.bam,WTncRNA2.bam,WTncRNA3.bam(生成的isoform_exp.diff用于寻找差异表达的转录本,生成的gene_exp.diff用于寻找差异表达的基因
)
6:过滤merged文件(自己写)
exon>=1(merged.gtf),reads>=3(isoforms.count_tracking),length>=200(merged.gtf),classcode=x
j o u i(merged.gtf)
7:编码能力预测(cpc,cnci,plek)
CPC需要使用blast,它调用的是blastall,也就是老版本的blast,而不是新版本的blast+。需要使用蛋白质库,UniRef90或者NCBI的nr都可以,用formatdb命令建库时,必须命名为”prot_db”,
且放在CPC安装目录下的data目录下面。
nr数据库:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
uniprot数据库:ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/
CPC的安装:下载cpc-0.9-r2.tar.gz
tar -zxvf cpc-0.9-r2.tar.gz
cd cpc-0.9-r2/libs/libsvm
tar -zxvf libsvm-2.81.tar.gz
cd libsvm-2.81
make clean
&& make
cd ../..
tar -zxvf estate.tar.gz
cd estate
make clean
&& make
建立本地blast数据库:cd
cpc-0.9-r2/data
formatdb -i (your_fasta_file)
-p T -n prot_db
运行CPC:cd cpc-0.9-r2/bin/run_predict.sh (input_seq)
(result_in_table) (working_dir) (result_evidence)run_predict.sh
建议将原始文件分割成比较小的文件去跑会快很多
CNCI的安装:CNCI使用了SVM(支持向量机)分类,其安装过程主要是编译libsvm。tar zxvf
CNCI_version2.tar.gz
cd CNCI_package
unzip libsvm-3.0.zip
cd libsvm-3.0
make
cd ..
CNCI的运行:
基本命令为:python CNCI_package/CNCI.py -f novel.fasta -o CNCI_out -m
ve -p 4参数说明:
-f 输入fasta文件(可以使用-g参数输入GTF文件,但是同时需要使用-d参数指定参考基因组的目录)
-o 输出结果目录
-m 指定模式,脊椎动物选择ve,植物选择pl
-p 指定CPU核数
小提示:CNCI的运行目录一定要在CNCI_package所在目录,不要到CNCI_package目录下运行CNCI,否则会报错。
plek略
8:靶基因预测
cis预测:寻找在lncrna附近10K~100K附近的基因(自己写很容易)
trans预测:在全基因组水平上根据表达量寻找与lncrna表达量相关系数高的基因(自己写或者真的是很多样本可以用WGCNA)
9:将靶基因做GO分析
略