python lncrna_[转载]lncrna分析流程

​1:数据质量评估(fastqc)

2:比对(tophat2)

​建立索引的命令:bowtie2-build genome.fa

*.bowtie2

比对命令:tophat2 -p 16  -G genome.gtf *.bowtie2

MTncRNA1_1.fastq MTncRNA1_2.fastq

3:组装(cufflinks)

​cufflinks -o ./ -p 6 -g genome.gtf -u

accepted_hits.bam

4:合并(cuffmerge)

​cuffmerge -g genome.gtf -s genome.fa -p 32

assemble

5:差异表达分析(cuffdiff)​

cuffdiff -b genome.fa -p 32 -u merged.gtf -L

M1,M2,M3,W1,W2,W3 MTncRNA1.bam MTncRNA2.bam MTncRNA3.bam

WTncRNA1.bam WTncRNA2.bam WTncRNA3.bam(isoforms.count_tracking用于过滤lncrna,提供了覆盖度的信息,isoforms.fpkm_tracking和genes.fpkm_tracking用于trans预测,计算两者的相关性)​​

cuffdiff -b genome.fa -p

32 -u merged.gtf -L MT,WT MTncRNA1.bam,MTncRNA2.bam,MTncRNA3.bam

WTncRNA1.bam,WTncRNA2.bam,WTncRNA3.bam(生成的isoform_exp.diff用于寻找差异表达的转录本,生成的gene_exp.diff用于寻找差异表达的基因

)

6:​过滤merged文件(自己写)

exon>=1(merged.gtf),reads>=3(isoforms.count_tracking)​,length>=200(merged.gtf),classcode=x

j o u i(merged.gtf)

7:编码能力预测(cpc,cnci,plek)

CPC需要使用blast,它调用的是blastall,也就是老版本的blast,而不是新版本的blast+。​需要使用蛋白质库,UniRef90或者NCBI的nr都可以,用formatdb命令建库时,必须命名为”prot_db”,

且放在CPC安装目录下的data目录下面。

nr数据库:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/​

uniprot数据库:ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/

CPC的安装:下载cpc-0.9-r2.tar.gz

tar -zxvf cpc-0.9-r2.tar.gz

cd cpc-0.9-r2/libs/libsvm

tar -zxvf libsvm-2.81.tar.gz

cd libsvm-2.81

make clean

&& make

cd ../..

tar -zxvf estate.tar.gz

cd estate

make clean

&& make

建立本地blast数据库:cd

cpc-0.9-r2/data

formatdb -i (your_fasta_file)

-p T -n prot_db

运行CPC:cd cpc-0.9-r2/bin/run_predict.sh (input_seq)

(result_in_table) (working_dir) (result_evidence)run_predict.sh

建议将原始文件分割成比较小的文件去跑会快很多​

CNCI的安装:CNCI使用了SVM(支持向量机)分类,其安装过程主要是编译libsvm。tar zxvf

CNCI_version2.tar.gz

cd CNCI_package

unzip libsvm-3.0.zip

cd libsvm-3.0

make

cd ..

CNCI的运行:

基本命令为:python CNCI_package/CNCI.py -f novel.fasta -o CNCI_out -m

ve -p 4参数说明:

-f 输入fasta文件(可以使用-g参数输入GTF文件,但是同时需要使用-d参数指定参考基因组的目录)

-o 输出结果目录

-m 指定模式,脊椎动物选择ve,植物选择pl

-p 指定CPU核数

小提示:CNCI的运行目录一定要在CNCI_package所在目录,不要到CNCI_package目录下运行CNCI,否则会报错。

plek略​

8:靶基因预测

cis预测:寻找在lncrna附近10K~100K附近的基因(自己写很容易)

trans预测:在全基因组水平上根据表达量寻找与lncrna表达量相关系数高的基因(自己写或者真的是很多样本可以用WGCNA)​

9:将靶基因做GO分析

略​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值