基础知识点(当年统计学基础真的是都还给老师了):
方差=E(x²)-E(x)²,E(X)是数学期望(mean)。
数学期望(mean)(或均值,亦简称期望),反映随机变量平均取值的大小,打个比方最清楚:
赌博是期望值的一种常见应用。例如,美国的轮盘中常用的轮盘上有38个数字,每一个数字被选中的概率都是相等的。赌注一般押在其中某一个数字上,如果轮盘的输出值和这个数字相等,那么下赌者可以获得相当于赌注35倍的奖金(原注不包含在内),若输出值和下压数字不同,则赌注就输掉了。
考虑到38种所有的可能结果,然后这里我们的设定的期望目标是“赢钱”,则因此,讨论赢或输两种预想状态的话,以1美元赌注押一个数字上,则获利的期望值为:赢的“概率38分之1,能获得35元”,加上“输1元的情况37种”,结果约等于-0.0526美元。也就是说,平均起来每赌1美元就会输掉0.0526美元,即美式轮盘以1美元作赌注的期望值为负0.0526美元。
方差在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。这就是将各个误差将之平方,相加之后再除以总数,透过这样的方式来算出各个数据分布、零散的程度。
泊松分布就是描述某段时间内,事件具体的发生概率。
日常生活中,大量事件是有固定频率的。
某医院平均每小时出生3个婴儿
某公司平均每10分钟接到1个电话
某超市平均每天销售4包xx牌奶粉
某网站平均每分钟有2次访问
在包含多个剪接异构体的基因中 ,读段映射到外显子和外显子结合区(空间固定频率)
它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?有可能一下子出生6个,也有可能一个都不出生。这是我们没法知道的。
泊松分布基础公式:
上面就是泊松分布的公式。等号的左边,P 表示概率,N表示某种函数关系,t 表示时间,n 表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) 。等号的右边,λ 表示事件的频率。
接下来两个小时,一个婴儿都不出生的概率是0.25%,基本不可能发生。
接下来一个小时,至少出生两个婴儿的概率是80%。
泊松分布的图形大概是下面的样子。
可以看到,在频率附近,事件的发生概率最高,然后向两边对称下降,即变得越大和越小都不太可能。每小时出生3个婴儿,这是最可能的结果,出生得越多或越少,就越不可能。
泊松分布的特征
1、泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量n必须很大。
2、λ是泊松分布所依赖的唯一参数。λ值愈小,分布愈偏倚,随着λ的增大,分布趋于对称。
3、当λ = 20时,分布泊松接近于正态分布;当λ = 50时,可以认为泊松分布呈正态分布。在实际工作中,当时就可以用正态分布来近似地处理泊松分布的问题。
二、指数分布
指数分布是事件的时间间隔的概率。下面这些都属于指数分布。
婴儿出生的时间间隔
来电的时间间隔
奶粉销售的时间间隔
网站访问的时间间隔
指数分布的公式可以从泊松分布推断出来。如果下一个婴儿间隔时间 t ,就等同于 t 之内没有任何婴儿出生。
反过来,事件在时间 t 之内发生的概率(至少出生一个的概率),就是1减去上面的值。
接下来15分钟,会有婴儿出生的概率是52.76%。
接下来的15分钟到30分钟,会有婴儿出生的概率是24.92%。
指数分布的图形大概是下面的样子。
可以看到,随着间隔时间变长,事件的发生概率急剧下降,呈指数式衰减。想一想,如果每小时平均出生3个婴儿,上面已经算过了,下一个婴儿间隔2小时才出生的概率是0.25%,那么间隔3小时、间隔4小时的概率,是不是更接近于0?
指数分布的概率密度为:
式中:x是给定的时间;λ为单位时间事件发生的次数;e=2.71828。
RNAseq中的应用:
在RNA-seq实 验 中 ,因 测 序 而 产 生 的 数 据 噪 声 是 不 可 避 免 的 。在 技 术 性 重 复 样 本 中 ,因
数 据 噪 声 导 致 的 样 本 之 间 的 变 异 性 能 被 泊 松 分 布 很 好 的 表 示 出 来。
基于泊松分布的方法自然是采用泊松分布来模拟每个外显子上的读段数据。这是因为泊松分布能较好的表示读段数据在每个外显子上的分配过程,并且具有很好的统计性质,如可叠加性和凸性等。
采用泊松分布来 估 计 异 构 体 表 达 水 平 ,其 泊 松 分 布 的 参 数 对 应 着 基 因 所 包 含 剪 接 异 构 体 表 达 水 平 的 线性加权和。