概率论全面总结


机器学习中,很多算法的推导,需要概率和统计的很多知识。学校里学的时候,基本是囫囵吞枣,也忘得差不离了。

现在复习一下,找一些概率与统计这门课的感觉。主要理解下什么是随机变量,与概率的关系,要样本干什么,等等。


1. 什么是古典概率?

有限个可能事件,且每个事件都是等可能概率事件。这个与抽样问题,经常联系起来


2. 什么是几何分布、超几何分布 ?

都是离散概率分布。是抽取问题的一种。

几何分布,是描述的n重伯努利实验成功的概率。前n-1次失败,第n次成功,才叫几何分布。或者说,首次成功的实验 的概率分布。


超几何分布,其实是二项分布的变体,二项分布是同一事件,重复n次的概率分布;而超几何分布,是一个事情只在每个维度上,都做一次。


3. 放回抽样与不放回抽样的概率有什么不同?

其实是相同的。为什么?

放回抽样,很好理解,每次情景相同,概率都相同。

而不放回抽样,每次抽样,都是与前些次的抽样相关的。这其实是一个排列组合问题。有的书采用对称性进行分析,每次事件相互独立,且具有对称性,其基本事件:抽样的序列,仍是排列。

从相关性上,前面的人抽中,与抽不中,对后面都有影响,但是这种影响又相互抵消。除非,前面有人知道如何抽中指定的。这个采用全概率公式,推导比较合理。

如当抽过i-1次后,仍剩下m个红球,n个白球。第i次抽取白球的概率为

n/(m+n).

则第i+1次抽取白球的概率为: 全概率公式:  n/(m+n)  *  (n-1)/(m+n-1)  +  m/(m+n) * n/(m+n-1) = n/(m+n) 递推下去,每次抽取的概率都是相同的。


更进一步,这个问题,可变体为:蒙提霍尔问题,出自美国的电视游戏节目Let’s Make a Deal。汽车与山羊,三扇门,选中汽车的概率,在开启一扇门后,有没有变化。

若主持人不知情,则概率无变化。剩余两门:1/2,1/2,无放回抽样类似。

若主持人知情,概率就会发生变化。剩余两门:未开门的概率为2/3,1/3,非概率事件。


4. 什么是随机变量?与概率什么关系?

一个单值实值函数,是一个函数X。而每个具体的实值x,会有一个出现的概率,这个概率能用这个函数(随机变量)能体现。随机变量的概念在机器学习的贝叶斯学习中、模式识别的贝叶斯分类中,是分析的基础。


5. 离散随机变量,常见的有哪些

三种分布

利用排列组合的知识,0-1分布,二项分布/n重伯努利分布 都比较好理解。

而泊松分布 是一种指数分布的形式。基本上是泰勒展开式的形式。为什么会有泊松分布的形式?

它也是一个单峰值函数,n无穷大时,可以近似二项分布。 因为二项分布的计算不如泊松分布方便。

以平均值,就能表征一个群体的特征的分布。n*lambda。围绕中心分布,两边衰减极快。

其主要描述一种稀有事件发生的概率。n很大,p很小。 而且其 期望与方差 都是lambda。 适合描述 单位时间、空间内 随机发生的事情。


–>> 随机变量,从离散型至连续型。离散型的随机变量,比较好理解,而连续型的随机变量,某一点的概率是为0.所以,连续型的随机变量,利用区间来表示。

而连续型的随机变量,即是一个连续型的函数。其用某区间内的概率表示,就比较合适。用区间概率表示的函数,就是随机变量的分布函数F(x)。而区间的概率表示:

P(x1 <x<=x2) = F(x2) - F(x1).

推导出随机变量的概率密度函数 f(x)。


6. 连续型随机变量,如何定义,如何表示?

分布函数:

1)均匀分布、平均分布

2)指数分布

这个分布的形式很重要,它是一般线性回归的分布的主要形式。

对于可靠性分析,排队论中有广泛应用。

3)高斯分布、正态分布

也可以说是指数分布的一种特殊表现形式。拥有对称性,极大值等特性。 噪声的分布经常都是正态分布,在应用中,基本上都假设是这种分布,在大部分的统计中,也确实符合这种分布。

其方差与置信区间的关系,3sigma法则 99.74%

正态分布的线性变换,仍然是正态分布,且性质保持不变。所以,任何随机变量正态分布,都可以转换为标准正态分布,进行求值,查询。分位点的概念,就是随便变量转换为标准正态后的对应的值。


 已知随机变量X的分布,Y与X的关系,推导Y的分布。很重要。

F(Y) = P(Y<y) = P(X < g(y)).即可 


7. 二维随机变量,是推广到高维随机变量的基础。

问题:X,Y相互独立情况下,其概率分布情况?

相互独立的随机变量:性质 F(X, Y) = F(X) * F(Y)

X,Y非独立情况下,X在Y限制下的条件分布?

边缘分布 fy = 积分f(x,y)dx

条件分布 f(x,y) / fy


求证X+Y <=Z 的概率密度函数, 备用系统

将x+y<z的积分, 转换为x =u-y,将积分转换为dy与dx次序无关的积分。


Z=XY, 或Z=X/Y的分布

积分,变换,次序无关,求导


Z=min(x, y)  Z=max(x, y)的分布, 串联、并联系统

max(x,y ) <=z  等同于 x<=z, y<=z

min(x, y) <=z 等同于 1-( max(x, y) > z) = 1-( x>z, y>z)


以上都是随机变量、概率的联系和推导。


8. 随机变量的数字特征,有哪些

转换到随机变量自身的性质。而且随机变量真正的分布是不知道的,只能通过其统计特征来估计其分布。

期望:又称均值。对于连续型随机变量,就是积分了。一阶矩。这个可以用来衡量偏差。E(|X-EX|)

方差:衡量离散的程度。与二阶矩相关。EX^2 - (EX)^2


与期望、方差及概率相关的一个定理:

切比雪夫不等式 P(|x -u| > m) < D(x)/m


协方差,这个概念在机器学习,统计学中跟方差的概念同样重要。因为两个随机变量不可能任何时候都是相互独立的。

不相关是针对线性关系而言,而相互独立是对一般关系而言,包括非线性关系。


矩:随机变量的各阶的数字特征

协方差矩阵:多维随机变量的联合数字特征。一个对称阵。半正定矩阵,对角元素为各随机变量的方差。在PCA中,协方差矩阵是求特征值的首要构成。


9. 大数(高频重复试验)定理与概率的关系。

独立同分布随机变量序列的算术平均值是如何收敛到、接近其期望的。

辛钦定理的描述的概率事件。 小概率事件,一件事重复发生n次。

试验次数很大时,可以用频率代替事件的概率。频率与概率的偏差非常小。


中心极限定理,随机序列足够大时,拟合正态分布,求具体事件发生的概率

1)同分布,同方差,期望。 所有随机变量序列的和(期望、方差和),服从正态分布

2)已知方差,期望。分布不知,所有随机变量的和(期望、方差和),服从正态分布

3)二项分布,n重复大时,重复次数足够大时,二项分布与正态分布相似。可以用正态分布来计算二项分布。

这类问题,先知道基本事件发生的概率,然后求期望,方差,拟合正态分布,再求具体事件发生的概率。


概率论都是研究 概率、随机变量分布,及其关系。但这些都是理论,未与实际应用结合。而且实际的随机变量是不可完全精确测的。

—————-

所以,统计,就是如何估计,拟合这些随机变量的。或者,判断某随机变量与某分布的拟合程度,或关系。

观测,获取样本,由样本进行统计、推断。

而样本除了自身的值,还可以扩展出各种统计量,就由样本值计算的高阶数据:均值、方差、高阶矩。


10. 经验分布函数、真实分布函数 关系

当样本个数足够大时,两者相等。

什么是样本?与总体的关系?

实际应用中总体的随机分布是未知的,一个总体对应一个随机变量,而从总体中抽取一个个体,就是样本,样本就是与总体有相同分布的随机变量。即样本与总体,都是随机变量,而且服从相同分布。样本间是相互独立的。

当测量或观察完成, 样本随机变量就会得到一个实数值,这就是样本值。

反过来,服从同一分布函数,且相互独立的随机变量序列,就是同一总体中的样本。


通过样本值来估计样本和总体的分布,就是统计的事。


抽样分布,又叫统计量分布。当总体的精确的分布函数确定时,其统计量分布(抽样分布)就确定了,然后,统计量的精确分布的求解是很困难的。所以,只能从样本中计算。


常用抽样分布:

1)卡方分布

统计量:来自N(0, 1)的样本的平方和

服从自由度为n的卡方分布。 EX = n, DX = 2n


2)t分布、student分布

卡方分布,自由度为n


3)F分布

与卡方分布相关,自由度n1,n2


当总体分布N(u,DX)已知,则抽样的统计量分布是:

服从正态总体的、样本均值的 分布

N(u, DX/n)

抽样(样本均值、样本方差)与卡方分布的关系


抽样(抽样期望与抽样方差)与t分布的关系


两个正态分布的抽样统计量与 F分布,t分布的关系。


由假设的正态分布的样本,到样本的函数分布,正态样本的统计量的分布函数形式。应该说是重点关注的正态样本的统计量。

一个总体,是一个随机变量

而每个样本,也是一个随机变量,是对总体的一次观察,每个样本的值,是一个实数。

区别:样本、样本值



11. 参数估计:

机器学习中,最基本的推理基础。

估计量的定义: 以样本为自变量的函数/统计量。

因此,常用的估计量有:

1)矩估计量

比较好理解,均值,方差,n阶矩

2)最大似然估计量

概率密度函数f(x; theta), theta是估计量

那么所有样本的联合概率密度函数就是:

f(xi, theta)的连乘。

为什么要构造这个形式?有什么理论依据?

首先,要假设,或已知带参数的分布函数

然后,构造联合概率分布函数,因为每个样本也都是随机变量

最后,求极值。计算出估计量。

极大似然函数,或者对数极大似然函数构造 是关键。 理解样本X是随机变量。

机器学习中,常用的解法是梯度下降法,或牛顿法。


估计量的性质:

1)无偏性、针对期望

无偏估计量:估计量的期望 等于 真实值

如样本方差S^2是总体方差的估计量,而不是二阶中心矩;

除以n-1,而不是n,是因为 样本均值的影响,样本均值也是一个随机变量。

所有样本平方和 减去 样本均值的平方,就是样本方差。而样本均值的方差是总体方差的1/n。


2)有效性:针对方差

比较两个估计量,相同无偏性的性质下,哪个散度小,即D(theta),就选哪个。

3)相合性

样本无穷大,估计量等于真实值。极大似然估计法,满足这个特性。


12. 置信区间

条件:已知总体分布、样本数据

求满足某个概率的区间。 即可以理解为,在这个范围内,达到某种可信度,可信概率。

计算出样本均值,样本方差。然后,由统计量的分布,进行计算置信区间。

常见问题

正态分布:

1)求期望的置信区间

总体方差已知:正态分布

总体方差未知:应用样本方差,t分布 

2)求方差的置信区间

利用样本方差,和卡方分布,进行计算

3)两个总体是正态分布的情况

求期望差的置信区间:

    总体方差已知:正态分布

    总体方差未知:t分布

求方差比的置信区间

    F分布,样本方差


单侧置信区间:

上限或下限,与双侧置信区间相比,需要查不同的表,但是计算方法相同。


13. 假设检验:

线性回归,逻辑回归,一般回归的分析的基础。

解决的问题:

在整个总体分布未知或仅知道形式,但各种参数未知,仅有一些测试的样本数据的场景下,提出某种假设。利用样本,验证假设的合理性。

一个判断的标准,需要一个接受假设的概率。

利用这个概率,去查询对应的分布的区间。

计算样本的统计量,看是否在其分布的接受区间内。


因此,由接收概率,提出接收域,拒绝域。双边检验,单边检验。

相当于,求出置信区间,然后判断统计量,是否在置信区间内。

置信水平 + 显著性检验水平 = 1


再接下来,就能过度到方差分析与回归分析了。

只不过,统计学中的回归分析,在拟合出模型后,还要做假设检验等等。

—————————–

1. 什么是先验概率?

事情未发生,只根据以往数据统计,分析事情发生的可能性,即先验概率。


2. 什么是后验概率?与先验概率关系?

事情已发生,已有结果,但求引起这事发生的因素的可能性,有果求因,即后验概率。 后验概率,引起的原因,是测量可能错误。

后验概率的计算,是以先验概率为前提条件的。如果只知道事情结果,而不知道先验概率(没有以往数据统计),是无法计算后验概率的。

后验概率的计算需要应用到贝叶斯公式


3. 贝叶斯公式与先验、后验概率的关系?

全概率公式,总结几种因素,事情发生的概率的并集。由因求果。

贝叶斯公式,事情已经发生,计算引起结果的各因素的概率,由果寻因。同后验概率。


4. 什么是条件概率?

后验概率是一种条件概率。

但条件概率不一定就是后验概率。

如 P(y|x),P(x|y)都是条件概率,二者表示的含义却不同。这里x表示因,y表示果。或者说x是特征,y是模型结果。

则P(y)是先验概率,而P(x|y)是后验概率。

而P(y|x)是一个条件概率,而不是后验概率。

clip_image011[8]

P(xy) = P(x|y)*P(y)

而一般分析问题时,已知的是特征x,需要判别结果y。

这里由推出一个判别模型。

5. 什么是判别模型?

计算判别模型P(y|x)时,需要 先验概率,后验概率作为基础。又称为条件概率模型。


常见的判别模型:线性回归、对数回归/逻辑回归、SVM、boosting、条件随机场、神经网络、最近邻算法Nearest neighbor等。 这些 模型都是通过计算 条件概率的 最大似然估计推导出来。

它是在有限样本的条件下,寻找最优的分类面,关注判别模型的边缘分布。目标函数大部分直接对应 分类准确率。



6. 什么是生成模型?

主要是估计 联合概率分布。如P(x,y) = P(x|y)*P(y)

生成模型 有无限的样本,可以得到其 概率密度模型, 然后可以进行预测了。


常见生成模型: 隐式马尔科夫模型、朴素贝叶斯模型、高斯混合模型、有限波兹曼机等。

因其有无限的样本,可以采用增量的方式学习模型,对于单类问题比判别模型强,信息量比判别模型丰富。主要是对后验概率建模,关注自身,而不关注边界。


由判别模型得不到生成模型,而从生成模型可以得到判别模型。


7. 高斯判别分析 与 逻辑回归的 关系



8. 贝叶斯决策理论的前提

1)各类别的概率分布是已知的,每个类别都有一类相同的特征数据,只不过相同条件下,每个类别概率不同。概率分布,概率密度分布

2)类别的个数是一定的


已知先验概率、和 采集的数据特征(这个因素在每个分类上的后验概率)

就可以对该数据进行分类。原理就是条件概率,贝叶斯决策。

最小错误率的贝叶斯决策与最小风险的贝叶斯决策  的区别和联系?

最小错误率的贝叶斯决策: 结果为 maxP(yi | x)


最小风险的贝叶斯决策:是考虑了各种错误造成不同的损失而提出的一种决策。


  • 10
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值