富集分析:(一)概述

本文介绍了富集分析的概念,包括富集分析的统计学基础和常见算法,如过表达分析(ORA)、功能分类打分(FCS)等。文章详细讨论了这些方法的优缺点,并提到了富集分析中常用的数据集,如GO和KEGG。此外,还列举了多种富集分析工具,如NASQAR、Enrichr、KOBAS-i等,并推荐了R包clusterProfiler和topGO。富集分析在生物学研究中用于发现差异表达基因集的生物功能意义,帮助理解基因或通路在特定生物学过程中的角色。
摘要由CSDN通过智能技术生成

(全文约6600字)

1. 富集分析

1.1. 富集分析概念

  1. 富集分析

富集分析,本质上是对数据的分布检验,如果分布集中在某个区域,则认为富集。

常用的分布检验方法有卡方检验、Fisher精确检验以及KS检验等方法。

  1. 生物信息学领域的富集分析

背景基因集(N) 下获得 一组特定基因集(S) ,S可能是基因列表,表达图谱,基因芯片等形式。在预先构建好基因注释数据库(例如GO,KEGG等)已对背景基因集(N)根据生物功能或过程进行分类的前提下,通过统计学算法找出有那些显著区别于背景基因集(N)的类别(生物组成/功能/过程),或者找出这组特定基因集间在生物组成/功能/过程的共性,经过聚类后去除冗余得到基因富集结果的过程,即为富集分析。

  1. 常用数据
  • 其中,背景基因集(N) 常常是一个物种的基因组注释基因总和。
  • 一组特定基因集(S) 常常是差异表达基因集(differentially expressed genes, DEGs)。
  • 预先构建好基因注释数据库常用GO或KEGG数据库。
  • 常见的统计学算法包括ORA,FCS,PT,NT四种。
  1. 实际应用

通常会使用其他分析的结果作为特定基因集(S),做基因富集分析来查看这些基因集是否主要集中在某些类别,这些类别代表的功能是否与表型或者进化事件有关联。比如:

  • 比较转录组分析得到的差异表达基因集;
  • 比较基因组分析中得到的某物种特有的基因集;
  • 基因家族收缩扩张分析得到的基因组中显著扩张/收缩的基因集;
  • 基因组共线性分析中在全基因组复制事件附近的Ks值的基因集等各种分析得到的基因集;

1.2. 富集分析的算法

富集分析算法经过发展,常见的有四类:

Figure 1. 富集分析四类算法
图片来源:paper:Progress in Gene Functional Enrichment Analysis

1.2.1. 过表达分析(Over Representation Analysis, ORA)

  1. 过表达分析(ORA)概念

过表达分析(ORA)是对背景基因集(N)和特定基因集(S)按照已知的基因功能或通路等分组,并鉴定特定基因集(S)在哪些组包含比背景基因集(N)比例更多的基因(过度表达,over-represented,即富集enriched)或更少的基因(表达不足,under-represented)的一种统计学方法。

ORA是出现最早,最常用,有完善的统计学理论基础的方法。ORA重点在于通过基因集组成的比例来判断富集程度。

  1. 过表达分析的分布检验

ORA类方法用的是离散分布的检验(Fisher精确检验,依据超几何分布的原理)。

超几何分布有很多资料可参考,比如:https://www.jianshu.com/p/13f46bebebd4

  1. 过表达分析(ORA)的局限性
  • ORA使用的统计方法(例如超几何分布,二项分布,卡方分布)只考虑差异基因数量,忽略了差异程度(不同表达水平),,需要人为设置阈值,没有一个设置规定,阈值设置有主观性。
  • 通过一刀切的人为规定的阈值,找出差异最显著的单个基因,而忽略其他基因,比如差异小但变化方向一致的基因集,往往后者比前者更重要。
  • 利用的统计学假设每个基因相互独立,但是就生物体本身而言,忽略了基因间内部的复杂的相互作用,并且每个基因在不同的生物学过程中发挥的作用大小不一样,同等看待结果可能会不准确。
  • 假设每条通路都独立其他通路。
  1. 过表达分析(ORA)的实际操作
    需要四组数据:
  • 背景基因集(N):常常是一个物种的基因组注释基因总和
  • 特定基因集(S):常常是差异表达基因集(differentially expressed genes, DEGs)
  • 背景基因集的分类信息:常常通过注释数据库(GO,KEGG等)和背景基因集获得
  • 特定基因集的分类信息:常常通过注释数据库(GO,KEGG等)和特定基因集获得

通过四组数据获得基因数量的2×2列联表,再利用fisher精确检验或超几何分布得到p值。认为设置一个显著性阈值,高于阈值的即为富集基因。

1.2.2. 功能分类打分(Functional Class Scoring,FCS)

1.2.2.1. 功能分类打分(FCS)
  1. 功能分类打分(FCS)概念和改进

功能分类打分(FCS)与ORA相比进行了基本假设的改变,除了考虑单个基因的显著变化外,还考虑微效基因的叠加效果。

代表是基因集富集分析(Gene Set Enrichment Analysis, GSEA)

  1. FCS分析的三个步骤
  • 计算单个基因表达水平的统计值,采用如衡量差异基因的ANOVA、Q-statistic、t检验、Z-score、信噪比,进行打分或排序,或者直接使用排序好的基因表达谱
  • 同一通路上所有基因的表达水平统计值进行整合,汇集成单个通路水平的分数或统计值,采用基因水平统计的和、均值或中位数,Wilcoxon rank sum, Maxmean statistic, Kolmogorov-Smirnov statistic
  • 对通路水平的显著性进行评估:利用重抽样(bootstrap)的统计学
  • 25
    点赞
  • 86
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值