富集全部表达基因
目的
偶然发现了某个基因很特别,所以想看看有没有其他的特别的基因。手上只有转录组的数据,之前做过差异基因的GO/KEGG分析,所以原理上不用差异基因,用全部基因也是可以做的,用的是无参的分析流程。
流程
-
原始数据的质量检测/过滤
- 通过FastQC来查看数据质量,用Trimmomatics来过滤低质量的数据
-
由于是无参考基因组,所以利用Trinity来组装出contigs来代替gene
Trinity --no_version_check --seqType fq --left ~/rna-seq/E-B/trim/E01/E01.fa_1P.gz --right ~/rna-seq/E-B/trim/E01/E01.fa_1P.gz --CPU 30 --max_memory 100G --output E01_trinity &1>E01.log 2>E01.err
-
3个平行样,结果得到3个 trinity.fa文件,通过CD-HIT来去除相似序列. 先将3个trinity.fa 分别命名为E01.fa, E02.fa, E03.fa , cat 合并3个fa文件
cat E01.fa E02.fa E03.fa > total.fasta
再去冗余
cd-hit-est -i total.fasta -o e_ref_cdhitest.fasta -c 0.95 -n 10 -d 0 -M 60000 -T 20 # cd-hit-est 是转录组的
得到唯一的fasta文件 , 查看组装状态
trinityrnaseq-Trinity-v2.4.0/util/TrinityStats.pl e4_cdhit
得到结果
################################ ## Counts of transcripts, etc. ################################ Total trinity 'genes': 179607 Total trinity transcripts: 443047 Percent GC: 60.20 ######################################## Stats based on ALL transcript contigs: ######################################## Contig N10: 2746 Contig N20: 2031 Contig N30: 1610 Contig N40: 1287 Contig N50: 1001 Median contig length: 363 Average contig: 639.37 Total assembled bases: 283270867 #####################################################
Stats based on ONLY LONGEST ISOFORM per ‘GENE’:
#####################################################
Contig N10: 3411
Contig N20: 2498
Contig N30: 1964
Contig N40: 1562
Contig N50: 1189
Median contig length: 359
Average contig: 677.70
Total assembled bases: 121718922
* 通过[kobas](http://kobas.cbi.pku.edu.cn/) 上传**cd-hit**后的fasta文件并选择好物种就可以得到GO/KEGG富集的相关通路