学习基因富集工具DAVID(2)

DAVID提供的基因富集功能,主要是GO和KEGG分析:

GO(Gene Ontology GO)分析:

对上传的基因列表进行富集,从而找到和下面三类term相关的基因群:

细胞组分(Cellular Component BP):描述基因产物在细胞中的位置,例如内质网、细胞核、蛋白酶体

分子功能(Molecular Function MF):基因产物的功能,如酶的结合活性或催化活性

生物学过程(Biological Proccess BP):是指具有多个步骤的有序生物过程,细胞生长、分化、维持、凋亡以及信号传导过程。

KEGG Pathways富集分析

DAVID网页:DAVID: Functional Annotation Result Summary

完成了基因ID转换,点击①Start Analysis,返回Step2界面:

点击 ②Functional Annotation Tool(功能注释工具),进行基因富集分析

等待页面加载完毕,实际上已经完成了基因富集。

①Clear All 按钮,完成基因富集后,会自动勾选一些富集分析选项,例如GO分析会自动勾选BB,MF和BP三个富集分析;同时,Pathways会自动勾选KEGG库得到的通路富集分析,点击clear all 取消这些默认勾选

②Gene_Ontology 点击查看GO分析的富集结果

③Pathways 点击查看通路分析的富集结果(上传列表内的基因参与细胞内代谢、信号转导等通路的富集情况)

点击clear all -->点击Pathways-->勾选KEGG pathways-->点击下方的Functional Annotation Clustering 查看分析结果

①help and Manual 点击查看详细的说明(比如ease 是如何计算的)

②Similarity Term Overlap 3 挑选出Count > 3的条目

③ EASE 0.1 选择EASE得分大于0.1的条目(EASE score 就是列表中的P Value)

④ Bebjamini 勾选后,在列表中显示结果Bebjamini算法校正后的P Value,勾选其他如FDR显示相关的校正P Value

⑤ Enrichment Score 富集倍数,由基因比率/背景比率得到

⑥ 点击查看该簇基因和相关通路相关性的热图,绿色表示被报道过相关性,黑色表示尚未被报道相关性

点击右上方的download file 可以下载该列表的txt格式

在Help and manual里讲解的EASE score的算法:

2.2. EASE Score, a Modified Fisher Exact P-value

计算原始P Value的算法: 

① List Total 是上传的list中带有功能注释的基因总数,Population Total是DAVID数据库内存储的带有功能注释的基因总数,List Hits 是在List Total中和这条Pathways有关的基因数目,Population Hits是在Population Total内和这条Pathways有关的基因数目。

用ease score算法计算校正后的P Value: 

用R实现两个P value的计算:

 计算的LH=11,LT=215,PH=93,PT=8156 

#计算原始的P Value
> a=matrix(c(11,82,204,8156-215-82),nrow=2,byrow=T)
> a
     [,1] [,2]
[1,]   11   82
[2,]  204 7859
> fisher.test(a)

	Fisher's Exact Test for Count Data

data:  a
p-value = 3.025e-05
#计算 EASE score
> a=matrix(c(11-1,82+1,204,8156-215-82),nrow=2,byrow=T)
> a
     [,1] [,2]
[1,]   10   83
[2,]  204 7859
> fisher.test(a)

	Fisher's Exact Test for Count Data

data:  a
p-value = 0.0001513

明显,列表内的结果是这个p value的保留小数点后5位

计算 Enrichment score:

 富集倍数由Fold Change列显示

list_ratio <-11/215   #计算列表基因比率
bg_ratio <- 93/8156   #计算背景比率
enrichment_score <- list_ratio/bg_ratio   #计算富集倍数

> enrichment_score 
[1] 4.486922

列表中的Fold change 是计算后结果的保留一位小数。

介绍Functional Annotation Chart

① clear all 去除所有的默认勾选

② 勾选 KEGG_PATHWAY,只查看KEGG PATHWAY的基因富集结果

③ 点击Functional Annotation Chart 查看KEGG数据库内匹配到的通路图表

① 上传的基因列表是网页提供的demolist2,所属的物质是人类,上传基因列表中,在david内匹配到的有372个

② 列表内在KEGG分析中匹配的所有基因数有215,和条目(term) transcriptional misregulation in cancer(癌症的转录失调通路)相关的基因有19个,点击term查看图表

 图表内红色的表示我们上传基因内,和该通路transcriptional misregulation in cancer(癌症的转录失调通路)相关的基因。

图表下是一个展示参与该通路所有基因的表格,红色的是即参与通路由出现在上传列表内的基因。

KEGG分析结果可视化:

分析基因产物在细胞中活动的通路。

一般是选取前十多条更显著的数据进行可视化,太多的会导致图形较拥挤

Excel中处理kegg pathways分析数据文件:

1.将Term列的物种号码~基因注释劈开,取后面的基因注释组成新的一列description:

1.右键插入新建一列C
2.C1输入description
3.C2输入=right(B2,len(B2)-9) #B是term列
4.下拉C2列

2.筛选出PValue小于0.05的:

选中【PValue】列-->【排序和筛选】-->【筛选】-->点击【PValue】列上出现的 \
按钮【数字筛选】-->【小于】,输入0.05

3.计算PVlaue的负对数值-log10(PValue):

1.新建一列G
2.将G1输入为'-log10(PValue)'  #不加''会变成#NAME?
3.在G2输入=-log10(E2)  #E列是PValue列
4.下拉G2

利用前十多行的description列和count列进行绘制条柱图,图片dpi要大于300

利用前十多行的description列和-log10(FDR)进行绘制条形图,保存为矢量图

参考视频:

基因富集工具DAVID介绍(二)—KEGG富集分析_哔哩哔哩_bilibili

  • 5
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黄思博呀

真的有人打赏啊,超级感谢!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值