五分钟GO、KEGG和COG注释和富集分析

GeneOntology(GO)数据库简介

  1. GO数据库把生物的生命活动主要分为三个过程:
    细胞组分
    分子功能
    生化过程
  2. 主要针对的是基因(Gene)的产物(RNA或Protein),而不只是gene本身;因为某个gene存在可变剪切,同一个gene有多种表达产物;这个gene 产物有个专有ID即GO term。
  3. GO term之间的关系(Relationship):
    is a
    part of
    has part
    regulates
    occurs in

GO注释

原理

  1. 其实现有的很多数据库之间已经实现互相注释,即表示nr-swissport-go-Ko等等之间的ID是一一对应起来的;
  2. 所谓的注释即获得该基因表达产物的GO term ID就行了。

方式一

  1. 利用blast、diamond等工具将序列比对并获得到nr、swissport等数库中对应的序列ID(gene id或gene symbol等等);
  2. 根据数据库ID对应字典(idmapping.tb.gz)查询获得GO term ID。

方式二

  1. 利用interproscan等工具注释序列的功能域(Domain)或Motif,并获得对应的GO term ID。

利用eggnog

最简单快捷的方式。

可视化

利用WEGO

富集分析

原理

常用的富集分析方法有Fisher精准概率法。以GO富集分析为例:
在单基因分析筛选差异表达基因基础上,Fisher精准概率法利用几何分布(hypergeometric distribution)原理,推断每个基因集中的差异表达基因的比例是否与整个基因集中差异表达基因的***比例***相同。该方法包括两个假设:

  1. 基因是否为差异表达基因(DE)
  2. 基因是否属于GO术语定义的基因集S在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    Fisher’s Exact Test原理:https://www.pathwaycommons.org/guide/primers/statistics/fishers_exact_test/
    Fisher’s Exact Test和卡方检验的区别:
    https://blog.csdn.net/u011955252/article/details/50704459
    富集分析:https://www.jianshu.com/p/3cd3fc14ba16?utm_campaign=haruki&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

操作

利用GeneOntology的AmiGO

是的,您说得对。emapper.annotations是eggnog-mapper的主要输出文件之一,包含了输入序列的各种注释信息统计数据。具体来说,每行代表一个输入基因或蛋白质,列包括以下内容: 1. **query_name**:输入序列的ID。 2. **seed_eggNOG_ortholog**:输入序列的Seed Ortholog的EGGNOG Ortholog Group ID。 3. **seed_ortholog_evalue**:输入序列Seed Ortholog的比对E-value。 4. **seed_ortholog_score**:输入序列Seed Ortholog的比对Bit-Score。 5. **Predicted_gene_name**:预测的基因名称。 6. **GO_terms**:Gene Ontology (GO) IDterm。 7. **KO**:KEGG Orthology (KO) ID。 8. **KEGG_Pathway**:预测的KEGG Pathway ID描述。 9. **KEGG_Module**:预测的KEGG Module ID描述。 10. **KEGG_Reaction**:预测的KEGG Reaction ID描述。 11. **KEGG_rclass**:预测的KEGG Reaction Class。 12. **BRITE_hierarchy**:预测的BRITE hierarchy。 13. **COG**:Clusters of Orthologous Groups (COG) ID描述。 14. **eggNOG_ortholog_groups**:输入序列的所有EGGNOG Ortholog Group ID。 15. **best_eggNOG_ortholog_evalue**:输入序列最佳EGGNOG Ortholog的比对E-value。 16. **best_eggNOG_ortholog_score**:输入序列最佳EGGNOG Ortholog的比对Bit-Score。 17. **Predicted_taxonomic_group**:预测的序列所属的分类群。 18. **Predicted_protein_name**:预测的蛋白质名称。 19. **COG_cat**:COG分类。 这些注释信息统计数据可以用于进一步的生物信息学分析可视化。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值