概率论与数理统计(陈希孺)学习笔记

由于平常学习自然语言处理的很多算法都来源于概率论和数理统计,因此找来陈老先生的著作温习巩固一下。具体内容请参考原著,本文仅作个人学习记录。

1.基本概念

主观概率:可以理解为一个人针对某一事件的一种心态或倾向性。这种倾向性一是根据其经验和知识所得,还有可能是根据其自身利害关系所得。主观概率虽然不具有坚实的客观理由基础,但是它却广泛存在于我们的生活当中,并可能反映认识主体的一种倾向性,因而具有其社会意义。

事件:概率论中的事件不是指已经发生了的情况,而是指某种(或某些)情况的‘陈述’,它可能发生,也可能不发生,发生与否,要到有关的‘试验’有了结果以后才能知道。事件特征有三(1)有一个明确界定的试验;(2)在试验前就明确了这个试验的全部可能结果;(3)当有一个明确的陈述界定了试验结果的全部可能结果中的一个确定的部分,其就叫做一个事件。由于事件是否在某次试验中的发生取决于机遇,因此在概率论中,事件常称为“随机事件”,其极端情况为“必然事件”和“不可能事件”。

古典概率定义:设一个试验有N个等可能结果,而事件E恰包含其中M个结果,则事件E的概率,记为P(E)=M/N。古典概率只能用于全部试验结果为有限个且等可能性成立的情况。如果引申为试验结果有无限多个的情况,就是“几何概率”,即等面积,等概率。

频率与概率:频率只是概率的估计而非概率本身,但当试验重复次数无限增大时,我们认为此时频率的极限就是概率。(大数定理)
排列与组合:排列有次序,而组合没有。
(1)排列公式:n个相异物体取r(1<=r<=n)个的不同排列总数

当n=r时,P=r(r-1)...1=r!,其中 0!=1
(2)组合公式:n个相异物件取r(1<=r<=n)个的不同组合总数。因为每一个包含r个物件的组合都可以产生r!个不同的排列,因此排列数应该是组合数的r!倍。

条件概率定义:设有两个事件A,B,且P(B)!=0,则“在给定B发生的条件下A的条件概率”,记为P(A|B)=P(AB)/P(B)
证明过程:设一个试验有N个等可能的结果,事件A、B分别包括其中M1和M2个结果,他们有M12个公共结果,即事件AB所包含的结果。若已经给定B发生,则可能的结果由N个缩减到M2个,其中只有M12个结果使事件A发生,则此时
P(A|B)=M12/M2=(M12/N)/(M2/N)=P(AB)/P(B)

事件的独立性:两个事件A、B,A的无条件概率P(A)与其给定条件B发生下的条件概率P(A|B)之间存在一些关联。若P(A|B)>P(A),则B发生使A发生的可能性增大了;若P(A|B)=P(A),则B发生与否对A发生的可能性毫无影响,此时就称A,B两事件独立。结合条件概率公式P(A|B)=P(AB)/P(B)可得,P(AB)=P(A)P(B)。
定理:若干个独立事件A1,...,An之积的概率等于各事件概率的乘积:P(A1...An)=P(A1)..P(An)
相加是互斥,相乘是独立!

全概率公式:设B1,B2...为有限或无限个事件,他们两两互斥且在每次试验中至少发生一个,即:
(1)BiBj=不可能事件(i!=j);
(2)B1+B2+...=Ω(必然事件)。
这样的一组事件称为“完备事件群”。
现考虑一个事件A,因为Ω为必然事件,有 A=AΩ=AB1+AB2+...   。 B1,B2...两两互斥,显然AB1,AB2...也两两互斥,因此有 P(A)=P(AB1)+P(AB2)+...
再由条件概率的定义,有 P(ABi)=P(Bi)P(A|Bi).带入上式得P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)+...  这就是全概率公式,这个名字的意思就是全部概率P(A)被分成许多部分之和,应用的意义在当较复杂的情况下直接算P(A)不容易,但A总是伴随某个B出现,则可以构造这样一组Bi来简化计算。

贝叶斯公式:在全概率公式的假定公式之下,有

这就是神奇的贝叶斯公式。其神奇之处在于:如果我们把事件A看成结果,完备事件群B1,B2...看成导致这个结果可能的原因。则可以把全概率公式看成“由原因推结果”,而贝叶斯公式则是“由结果推原因”。
随机变量:就是其值随机会而定的变量。一种叫离散型随机变量,其特征只能取有限个值,或虽然在理论上能取无限个值,但这些值可以毫无遗漏地一个接一个排列出来。一种叫连续性随机变量,其全部可能取值不仅是无穷多个,并且还不能无遗漏地逐一排列,而是充满一个空间。

2.离散型随机变量的分布

概率函数:设X为离散型随机变量,其全部可能值为{a1,a2,...}则pi=P(X=ai) (i=1,2...)称为X的概率函数。
可以知道 pi>=0, p1+p2+...=1
上述公式指出了概率1在其可能值之间如何分布的,因此又称X的概率函数为随机变量X的概率分布。
分布函数:设X为一随机变量,则函数P(X<=x)=F(x)(-∞<x<+∞) 称为X的分布函数。对离散型随机变量而言,概率函数与分布函数是等价的,P(X<=x)=F(x)(-∞<x<+∞)=Σpi  可能概率值的累加
对随机变量X,其分布函数F(x)具有一下性质:
(1)F(x)是单调非降的,当x1<x2,有F(x1)<=F(x2)。这是因为当x1<x2时,事件{X<=x1}蕴含(被包含于)事件{X<=x2},因而前者的概率不能超过后者的概率;
(2)当x取极限正无穷时,F(x)趋近于1,当x取极限负无穷时,F(x)趋近于0。

二项分布
满足两个条件:(1)各次试验的条件是稳定的,即事件A的概率p在各次试验中保持不变;
   (2)各次试验的独立性。
泊松分布:若随机变量X的可能取值为0,1,2,...,且概率分布为
则称X服从泊松分布,记为X~P(λ),λ>0是某一常数,等式右边对i=0,1,2..求和的结果为1。泊松分布多出现在当X表示在一定的时间或空间内出现的事件个数这种场合。
举例说明其产生的机制:若观测一定时间内某交通路口所发生的事故个数。设所观察的这段时间为[0,1),取一个很大的自然数n,把时间[0,1)分为等长的n段:L1=[0,1/n), L2=[1/n,2/n),....Li=[(i-1)/n,i/n),....Ln=[(n-1)/n,1),做几个假设:
(1)在每段Li内,恰发生一个事故的概率,近似的与这段时间的长1/n成正比,即可取为 λ/n,又假定在n很大因而1/n很小时,在Li这么短的一段时间内要发生两次或更多的事故是不可能的。因此,在Li时段内不发生事故的概率为1-(λ/n)
(2)L1、L2..Ln各段是否发生事故是独立的。
即把在[0,1)时段内发生的事故数X视为在n个小时段L1、L2..Ln内有事故的时段数,则此时X应服从二项分布B(n,λ/n)
但严格的讲,该公式知识近似成立,因为在假设(1)中,每个时段内发生一次事故的概率只是近似的为λ/n。当n取极限时,就得到确切的答案。当n取极限无穷大时,
第二个公式的取极限结果不太明白(好像为指数函数的公式)!!!
结合两式就得出上述的泊松分布,它是由二项分布的极限得到的。

3.连续型随机变量的分布

概率密度函数,简称密度函数:设连续型随机变量X有概率分布函数F(x),则F(x)的导数f(x) =F'(x)称为X的概率密度函数。反映了概率在x点处的密集程度。
连续型随机变量X的密度函数f(x)都具有以下三条基本性质:
(1)f(x)>=0;
(2)
(3)对任何常数a<b,有

下图为某一连续型随机变量X的分布函数F和概率密度函数f


正态分布:如果一个随机变量具有概率密度函数如下:
则称X为正态随机变量,并记为,N是“normal”正态一词的首字母,括号里为这个分布的参数。正态分布的图形如上图中的(b)
是正态分布N(0,1)的密度函数,N(0,1)称为标准正态分布。

指数分布:若随机变量X有概率密度函数,如下:
则称X服从指数分布,其中λ>0为参数。由于当x<=0时f(x)=0,表示随机变量取负值的概率为0,故X只取正值。下图中虚线表示当λ=1时指数分布图形,实线表示当λ=2时指数分布图形。指数分布最常见的应用场合就是寿命分布。

均匀分布:设随机变量X有密度函数,如下:
则称X服从区间[a,b]上的均匀分布,记为X~R(a,b)。
均匀分布的名称是因为密度函数f在区间[a,b]上为常数,因此在这个区间上,概率在各处的密集程度一样,或者说,概率均匀地分布在这个区间上。其密度函数f的图形和分布函数F的图形如下:
总结:密度函数是对每个可能值的模型表示,分布函数是随着变量的变化其值累积过程的模型表示。
B分布 ,又称beta分布也称贝塔分布,是指一组定义在(0,1)区间的连续概率分布,有两个参数\alpha, \beta>0
其概率密度函数为:
\begin{align}f(x;\alpha,\beta) & = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{\int_0^1 u^{\alpha-1} (1-u)^{\beta-1}\, du} \\[6pt]& = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\, x^{\alpha-1}(1-x)^{\beta-1} \\[6pt]& = \frac{1}{\mathrm{B}(\alpha,\beta)}\, x^{\alpha-1}(1-x)^{\beta-1}\end{align}

其中\Gamma(z)是Gamma函数。随机变量X服从参数为\alpha, \beta的Β分布通常写作X \sim \textrm{Be}(\alpha, \beta)

4.离散型随机向量的分布

5.连续型随机向量的分布

6.边缘分布

设X=(X1,..,Xn)为一个n维随机向量,X有一定的分布F,这是一个n维分布。因为X的每个分量Xi都是一维随机变量,所以他们都有各自的分布Fi,这些都是一维分布。称为随机向量X或其分布F的边缘分布。

7.数学期望

事件X的期望值就等于X的可能值与其每个可能值的概率之积的累加。
定义:设随机变量X只取有限个可能值a1,...an,其概率分布为P(X=ai)=pi  (i=1,..,n)。则X的数学期望记为
E(X)=a1p1+a2p2+....+anpn
即随机变量取值的加权平均值。
性质:
(1)若干个随机变量之和的期望等于各变量的期望之和;假定个变量的期望都存在。
(2)若干个独立随机变量之积的期望等于各变量的期望之积;
(3)随机变量函数的期望。

8.大数定理

有时候一个有限的和很难求,但可以利用极限的方法来近似计算,并且一般情况下,和的极限分布就是正态分布。概率论上,习惯把和的分布收敛于正态分布的定理统称为“中心极限定理”。另一类重要的极限定理就是“大数定理”,它是由概率的统计定义“频率收敛于概率”引申出来的。“大数”的意思是指涉及大量数目的观察值Xi,它表明这种定理指出的现象只有在大量次数的试验和观察之下才能成立。

9.数理统计学

是指使用概率论和数学的方法,研究怎样收集(通过试验或观察)带有随机误差的数据,并在设定的模型(统计模型)之下,对这种数据进行分析(统计分析),以对所研究的问题做出推断(统计推断)。


由于近期有研究任务,不可能整本书细致读完,等有机会继续研读。
未完待续。。。

  • 24
    点赞
  • 132
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值