第二章 概率(Probability)
2.1引言(Introduction)
- 在这一章,我们将会讲述关于概率论的更多细节。我们不会太过深入,但是我们至少会简要的了解一下我们在接下来的章节中所要涉及的思想。
- 让我们先来思考一下:什么是概率?
- 常见的解释有两种,第一种是frequentist解释。这种观点认为概率代表了一个事件发生的长期概率。例如,它对抛硬币的概率的解释是:如果抛很多次硬币,那么必然有一半左右是正面。另一种是贝叶斯解释,它认为概率是一种量化我们对事物的不确定性的认识。相比之下,它更加侧重信息表示而非重复试验。例如,它对抛硬币的解释则是:我们对硬币落下之后是正面或者反面的概率的期望相同。
- 贝叶斯解释的一个巨大的优势在于它可以被用来描述那些我们无法多次获取概率的事件。因此,我们在这本书中将会使用贝叶斯解释。好在,在不同的解释中,基本的概率论法则都是相同的,因此不会产生太大的影响。
2.2概率论初窥(a brief review)
这一部分是对于概率论的一个简单的介绍,为读者提供一个过渡。
2.2.1离散随机变量(discrete random variable)
- :A发生的概率,:A不发生的概率= A=1:A是真的 A=0:A是假的
- 我们可以通过定义一个离散随机变量X来延拓二元事件(即结果要么真要么假)的定义。X的取值范围可以是一个有限或可数无限集K。我们定义事件X=x的概率为,或者简记为,在这里p称为概率质量函数(probability mass function,简称pmf),其满足,且
2.2.2基本法则
2.2.2.1两个事件同时发生的概率
2.2.2.2联合概率(joint probabilities)
- 联合事件:(乘法原理:product rule)
- 边际分布(marginal distribution):(加法原理:sum rule)
2.2.2.3条件概率
2.2.3贝叶斯法则
2.2.3.1举例:医学诊断
- 一个人想要用X光检测自己有没有得乳腺癌。已知乳腺癌的患病率是0.004,如果得了乳腺癌,那么X光检测阳性的几率是0.8;如果没有得,那么假阳性的几率则是0.1,那么,如果检测为阳性,她得乳腺癌的几率是?
2.2.3.2举例:生成式分类器(generative classififier)
- 对上例的一般化:
- 这被称为生成式分类器,因为它规定(specify)了如何使用类条件密度(class conditional density)和类先验(class prior)来获取信息。一个代替的方法是直接使用判别分类器求出(fit)类后验(class posterior)
2.2.4独立和条件独立(conditional independence)
- 若有,我们称X,Y无条件独立,记为;一般地,如果集合里面的元素两两独立,我们也称其共同(mutal)独立
- 当然,在真实世界中变量太多,往往不能保证独立性,但是其他变量的干扰往往是间接的(mediated)而非直接的,因而我们可以使用条件概率进行描述:如果,则记
- 定理:如果存在函数g,h,使得对任意的x,y,z,p(z)>0,均有,则
2.2.5连续随机变量
- 如果X是一个连续的随机变量,那么定义函数,称为X的累积分布函数(cumulative distribution function,cdf),显然为一个单调递增函数。再定义,称为概率密度函数(probability density function,pdf),则
- 取间隔足够小,则
- 注意:在pdf中,p(x)可能会>1,因为它是F的导数,而只有F<1。而这里的p(x)并不是发生x的概率,因为x根本不是一个事件,发生的概率为0,这里的p(x)是在x附近的事件发生的密度。
- 笔者补充:事实上,一般的离散随机变量,通过定义定义域外的点处概率为0,可以延拓为连续随机变量。例如,在抛硬币的时候,p(X=0)=p(X=1)=1/2,则定义其余p(X=k)=0,我们得到了其cdf:,当然了,因为存在断点,其导函数(pdf)不存在。
2.2.6分位数(quantiles)
- 由于F单调递增,我们可以定义F的反函数,称为对的分位数。例如,即为X的分布的中位数‘;而和分别称为上下四分位数(quartiles)
2.2.7均值与方差(mean and variance)
- 一组数据中最为重要的指标就是均值,记为,描述了数据的期望:
- 方差记为