GO注释(生信学习)

参考:GO分析学习笔记 (qq.com)

1.富集分析

前景基因:要重点研究的基因集

背景基因:所有的基因集

例:前景基因为对照组与处理组的差异基因

        背景基因为对照组与处理组的所有基因

2、GO的构成

GO terms, 它提供生物过程的逻辑结构与相关关系,不同的GO terms之间的关系可以通过一个有向无环图来表示。

注:GO terms是对基因的产物,而不是对基因的本身进行描述,因为基因本身的产物有时候不止一种

GO注释(GO annotations),它主要是为GO terms提供注释, 也就是描述这个GO terms有什么功能

3.GO中的基因注释证据代码

一个GO注释由一个与GO term相关的特定参考和基因产物构成,GO注释的来源各异,下表就说明了GO注释的各种来源代码,其中*部分表示证据来源可靠性比较高

缩写证据代码例子
IC,Inferred by curator由专家推测得到推测它定位在细胞核中一个蛋白质如果有“转录因子”的功能注释,专家就可以
*IDA,Inferred from direct assay有直接实验证据如酶活化实验(针对“分子功能”),免疫荧光显微镜(针对“细胞组分”)
IEA,Inferred from electronic annotation有电子注释基于像BLAST这些搜索软件搜索结果的电子注释(与ISS比较,IEA没有被专家证实)
*IEP,Inferred from expression pattern有表达模式方面的证据转录水平(如Nothern Bloting或微阵列实验结果)或蛋白质表达水平(Western blots实验结果)
*IGI,Inferred from genetic interaction有遗传相互作用方面的证据抑制基因;遗传致死基因;互补试验;还有其他一些可以提供某一基因功能信息的实验
*IMP,Inferred from mutant phenotype由突变表型推测得到基因突变;基因敲出;过量表达;反义RNA实验
*IPI,Inferred from physical interaction由物理相互作用推测得到酵母双杂交实验;共纯化实验;免疫共沉淀实验;结合实验
ISS,Inferred from sequence or structural similarity由序列或结构的相似性得到序列的相似性;结构域;被专家确认的BLAST软件的搜索结果
NAS,Non-traceable author statement有报道,但报道信息来源不可知数据库(如SwissPort数据库)登录条目的记录中没有引用已发表的文献
ND,No biological data没有相关的生物数据对应于“unknown”的分子功能、细胞过程或细胞组分
TAS,Traceable author statement有报道,且可知报道信息来源有一些综述文章或字典中可以找到相关信息

4.理论基础

超几何分布

N:表示总基因数

n:表示N中差异表达基因的总数

M:表示N中属于某个GO terms的基因个数

K:表示n中属于某个GO terms的基因个数

这个公式表示的意思是,从总的N个基因中挑出n个基因,作为分母(这是背景基因),分子则是M个基因(我们的差异基因,这是前景基因),有k个落在了某通路里,有n-k个不落在了某通路里,然后使用超几何分布来对它们进行计算,即前景基因落在某通路的比例是否高于背景基因在这一通路的比例,实际计算时,是算的odds ratio的差异。

现在举个例子,在GO分析的结果表格中,会出现以下信息:

Background Frequency,背景基因频数,指的是在整个背景基因集中,注释到一个GO term中的基因数目。


Sample Frequency,样本基因频数(有的也叫前景基因频数,总之,就是你要研究的一批基因)指的是,在你研究的基因列表中,注释到这个GO term(与Background Frequency的GO term相同的这个GO term)的基因数目。例如,我们在研究酿酒酵母(S. cerevisiae)的生物过程(biological process)时,这个物种的背景基因是6442个基因,假如我们要研究的目的基因有10个,其中有5个基因被注释到了一个这样的GO term上,这个GO term是:DNA修复(DNA repair),然后样本中的DNA修复的基因频率就是5/10,如果在酿酒酵母(S. cerevisiae)的整个基因组中,只有100个基因注释到了DNA修复的这个GO term上,那么背景基因的频率就是100/6442。GO分析就是利用超几何分布(或Fisher精确检验)来比较一下5/10和100/6442有没有统计学差异,GO分析结果的表格中会列出这个计算结果的P值

富集方法与GO term的查询

1.AmiGO

 2.DAVID

3.gotatools命令

python /.../goatools/scripts/find_enrichment.py <fg.genelist> <bg.genelist> <association_file> --outfile <outfile> --obo /../go-basic_20180701.obo --pval 0.05

1.fg.genelist和bg.genelist就是研究的前景与背景基因文件,每行一个基因名

2.association文件即每个基因对应的GO号,两列,第一列为基因名,第二列为GO号

3.obo:官网下载的GO信息文件,大概情况如下:

5.GO分析的思路

第一件事情就是我们要把差异基因与相应的GO terms对应起来;

第二件事情就是需要找到前景基因(也就是差异基因)与背景基因;

第三件事情就是,将对应起来的GO terms进行比较,也就是利用超几何检验,这些差异基因在某个通路中的比例是否要高于背景基因;

第四件事情就是绘图,也就是文献中经常出现的GO条形图 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值