富集全部表达基因

最新推荐文章于 2021-02-22 11:08:54 发布

mym_74

最新推荐文章于 2021-02-22 11:08:54 发布

阅读量451

点赞数

分类专栏：生物信息文章标签：转录组

本文链接：https://blog.csdn.net/mym_74/article/details/102887500

版权

生物信息专栏收录该内容

5 篇文章 0 订阅

订阅专栏

富集全部表达基因

目的

偶然发现了某个基因很特别，所以想看看有没有其他的特别的基因。手上只有转录组的数据，之前做过差异基因的GO/KEGG分析，所以原理上不用差异基因，用全部基因也是可以做的，用的是无参的分析流程。

流程

原始数据的质量检测/过滤
- 通过FastQC来查看数据质量，用Trimmomatics来过滤低质量的数据

由于是无参考基因组，所以利用Trinity来组装出contigs来代替gene

Trinity --no_version_check --seqType fq --left ~/rna-seq/E-B/trim/E01/E01.fa_1P.gz --right ~/rna-seq/E-B/trim/E01/E01.fa_1P.gz  --CPU 30 --max_memory 100G --output E01_trinity &1>E01.log 2>E01.err

3个平行样，结果得到3个 trinity.fa文件，通过CD-HIT来去除相似序列. 先将3个trinity.fa 分别命名为E01.fa, E02.fa, E03.fa , cat 合并3个fa文件

cat E01.fa E02.fa E03.fa > total.fasta

再去冗余

cd-hit-est -i total.fasta -o e_ref_cdhitest.fasta -c 0.95 -n 10 -d 0 -M 60000 -T 20   # cd-hit-est 是转录组的

得到唯一的fasta文件，查看组装状态

trinityrnaseq-Trinity-v2.4.0/util/TrinityStats.pl e4_cdhit

得到结果


################################

## Counts of transcripts, etc.

################################

Total trinity 'genes':    179607

Total trinity transcripts:    443047

Percent GC: 60.20

########################################

Stats based on ALL transcript contigs:

########################################

    Contig N10: 2746
    Contig N20: 2031
    Contig N30: 1610
    Contig N40: 1287
    Contig N50: 1001
    
    Median contig length: 363
    Average contig: 639.37
    Total assembled bases: 283270867

#####################################################

Stats based on ONLY LONGEST ISOFORM per ‘GENE’:

#####################################################

  Contig N10: 3411
  Contig N20: 2498
  Contig N30: 1964
  Contig N40: 1562
  Contig N50: 1189

  Median contig length: 359
  Average contig: 677.70
  Total assembled bases: 121718922


* 通过[kobas](http://kobas.cbi.pku.edu.cn/) 上传**cd-hit**后的fasta文件并选择好物种就可以得到GO/KEGG富集的相关通路

mym_74

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录