概率论与数理统计复习

在开始介绍极大似然估计之前,首先明确概率论与数理统计中的几个非常重要的概念。

1. 随机变量及其分布

随机变量(random variable)表示随机试验各种结果的实值单值函数。 随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达,数量化的好处是可以用数学分析的方法来研究随机现象。

在试验时,相对于试验结果本身而言,我们常常对结果的某些函数感兴趣。例如在射击比赛中,取一个人连续射击两次的成绩,那么每个样本点可能的情况有{1,1},{1,0},{0,1},{0,0}(这些样本点构成一个样本空间),但我们并不关心哪一次射中,只关心最后的射中次数,随机变量X就可以代表射中的次数,那么X=0,1,2。这些定义在样本空间上的实值函数X,称为随机变量。因为随机变量的值是由试验结果(样本点)决定的,所以我们可以给随机变量的可能值指定概率。

1.1 离散型随机变量及其概率分布

离散型随机变量是可列的,比如掷骰子,令随机变量X取获得的点数,X=0,1,2,3,4,5,6。随机变量取值的概率也能知道:
P ( X = x k ) = p k P(X=x_k)=p_k P(X=xk)=pk
式中的小写代表一个具体的取值。上式就是随机变量的概率分布或者叫概率函数

1.2 连续型随机变量及其概率密度函数

连续型随机变量是指如果随机变量X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任一点的随机变量。例如,一批电子元件的寿命、实际中常遇到的测量误差等都是连续型随机变量。

由于连续型随机变量不可列性,所以我们考虑连续型随机变量的某个取值没有意义,而是考虑随机变量的某个区间。首先看这样一个例子:
某地区100年降水量情况如下表:

降水量/mL570~ 670670~770770~870870~970970~10701070~1170
频数372730258
频率0.030.070.270.300.250.08

其频率密度直方图为:
在这里插入图片描述

这样处理的好处是任意区间的降水量的频率可以通过求频率密度直方图中该区间的面积来解决。
当我们把区间再取小时得到:
在这里插入图片描述
通过上图计算出的某个降水区间的频率一定是更加准确的。
如果对于一个连续型随机变量,我们将上述区间取得足够小时,就能够取到逼近某个确定数值近似的概率,但必须明确连续性随机变量取到某个确定数值的概率为0。
下面给出连续型随机变量及其概率密度函数的定义:

对于随机变量X,若存在一个非负的可积函数f(x),使得对任意实数x,有 F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infin}^{x}f(t)dt F(x)=xf(t)dt则称X为连续性随机变量。其中f(x)为X的概率分布密度函数,简称概率密度记为 X ~ f ( x ) X~f(x) Xf(x)

对于任意两个实数x1和x2(假设x1<x2),都有:
P { x 1 < X ≤ x 2 } = F ( x 2 ) − F ( x 1 ) = ∫ x 1 x 2 f ( x ) d x P\{x1<X \leq x2\}=F(x2)-F(x1)=\int_{x1}^{x2} f(x)dx P{x1<Xx2}=F(x2)F(x1)=x1x2f(x)dx
X取任一指定实数值的概率 P { X = a } = ∫ a a f ( x ) d x = 0 P\{X=a\}=\int_{a}^{a} f(x)dx=0 P{X=a}=aaf(x)dx=0 ,这样在计算连续性随机变量落在某一区间的概率时,可以不必区分该区间是开区间还是闭区间。
P { a < X < b } = P { a ≤ X < b } = P { a < X ≤ b } = P { a ≤ X ≤ b } P\{a<X<b\}=P\{a\leq X < b\}=P\{a<X \leq b\}=P\{a\leq X \leq b\} P{a<X<b}=P{aX<b}=P{a<Xb}=P{aXb}
f(a)的值代表X取a附近值的概率大小与此区间之比。
lim ⁡ Δ x → 0 P { x < X < x + Δ x } Δ x = lim ⁡ Δ x → 0 ∫ x x + Δ x f ( x ) d x Δ x = f ( x ) \lim\limits_{\Delta x \to0} \frac{P\{x<X<x+\Delta x\}}{\Delta x}=\lim\limits_{\Delta x \to0} \frac{\int_{x}^{x+\Delta x} f(x)dx}{\Delta x }=f(x) Δx0limΔxP{x<X<x+Δx}=Δx0limΔxxx+Δxf(x)dx=f(x)

尽管 P { X = a } = 0 P\{X=a\}=0 P{X=a}=0,但 { X = a } \{X=a\} {X=a}并不是不可能事件。同样,一个事件的概率为1,并不意味这个事件一定发生。提到一个随机变量X的概率分布(二项分布,正态分布等)时,当X是连续型时指的是它的概率密度 f ( x ) f(x) f(x),当X是离散型时指的是它的分布规律 P { X = k } P\{X=k\} P{X=k}

2. 随机变量的期望

在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。

2.1 离散情形

如果X是离散随机变量,具有概率质量函数p(x)(相当于连续型中概率密度函数),那么X的期望值定义为:
E ( X ) = ∑ k = 1 ∞ x k p k E(X)=\displaystyle\sum_{k=1}^\infin x_kp_k E(X)=k=1xkpk
换句话说,X的期望是X可能取的值的加权平均,每个值被X取此值的概率所加权。

2.2 连续情形

设连续型随机变量X的概率密度函数为f(x),若积分绝对收敛,则称积分的值为随机变量的数学期望,记为E(X)。
E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X)=\int_{-\infin}^{\infin}xf(x)dx E(X)=xf(x)dx
定理
若随机变量Y符合函数 Y = g ( x ) Y=g(x) Y=g(x),且 ∫ − ∞ ∞ g ( x ) f ( x ) d x \int_{-\infin}^{\infin}g(x)f(x)dx g(x)f(x)dx绝对收敛,则有:
E ( Y ) = E ( g ( X ) ) = ∫ − ∞ ∞ g ( x ) f ( x ) d x E(Y)=E(g(X))=\int_{-\infin}^{\infin}g(x)f(x)dx E(Y)=E(g(X))=g(x)f(x)dx
该定理的意义在于:我们求 E ( Y ) E(Y) E(Y)时不需要算出Y的分布律或者概率分布,只要利用X的分布律或概率密度即可。
上述定理还可以推广到两个或以上随机变量的函数情况。
设Z是随机变量X、Y的函数 Z = g ( X , Y ) Z=g(X,Y) Z=g(X,Y)(g是连续函数),Z是一个一维随机变量,二维随机变量(X,Y)的概率密度为 f ( x , y ) f(x,y) f(x,y),则有:
E ( Z ) = E ( g ( X , Y ) ) = ∫ − ∞ ∞ ∫ − ∞ ∞ g ( x , y ) f ( x , y ) d x d y E(Z)=E(g(X,Y))=\int_{-\infin}^{\infin}\int_{-\infin}^{\infin}g(x,y)f(x,y)dxdy E(Z)=E(g(X,Y))=g(x,y)f(x,y)dxdy

3. 常见随机变量的分布

3.1 0-1分布

0-1分布就是n=1情况下的二项分布。即只先进行一次事件试验,该事件发生的概率为p,不发生的概率为1-p。这是一个最简单的分布,任何一个只有两种结果的随机现象都服从0-1分布。

设离散型随机变量的分布律为 P { X = k } = p k ( 1 − p ) 1 − k P\{X=k\}=p^k(1-p)^{1-k} P{X=k}=pk(1p)1k,其中k=0,1。k=1时, P { X = k } = p P\{X=k\}=p P{X=k}=p(0<p<1),则称X服从0-1分布,0-1分布又叫两点分布,记为:X~B(x,p)。

数学上与之相关的另一种分布称为伯努利试验(二项分布)。如果随机试验E满足:将一个试验在相同条件下重复进行n次,各次试验仅有两个结果 A A A A ‾ \overline{A} A,事件A的概率在各次试验中保持不变,P(A)=p,P( A ‾ \overline{A} A)=1-p; 各次试验的结果互不影响,则称随机试验E为n次伯努利试验。
举例
即只先进行一次事件试验,该事件发生的概率为p,不发生的概率q=1-p。这是一个最简单的分布,任何一个只有两种结果的随机现象,比如,抛硬币观察正反面,新生儿是男还是女,检查产品是否合格等,都可用它来描述。

3.2 几何分布

几何分布(Geometric distribution)是离散型概率分布。其中一种定义为:在n次伯努利试验中,试验k次才得到第一次成功的机率。详细地说,是:前k-1次皆失败,第k次成功的概率。在伯努利试验中,记每次试验中事件A发生的概率为p,试验进行到事件A出现时停止,此时所进行的试验次数为X,其概率函数为:
P ( X = k ) = ( 1 − p ) k − 1 p , k = 1 , 2 , . . . P(X=k)=(1-p)^{k-1}p,k=1,2,... P(X=k)=(1p)k1pk=1,2,...
此分布列是几何数列的一般项,因此称X服从几何分布,记为X ~ GE(p) 。
实际中有不少随机变量服从几何分布,例如,某产品的不合格率为0.05,则首次查到不合格品的检查次数X ~ GE(0.05) 。

3.3 二项分布(伯努利试验)

在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p。用X表示n重伯努利试验中事件A发生的次数,则X的可能取值为0,1,…,n,且对每一个k(0≤k≤n),事件{X=k}即为“n次试验中事件A恰好发生k次”,随机变量X的离散概率分布即为二项分布(Binomial Distribution)。
一般地,如果随机变量服从二项分布,我们记为X ~ B(n,p) 。n次试验中正好得到k次成功的概率由概率质量函数给出:
P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 1 , 2 , . . . n P(X=k)=C_{n}^{k}p^k(1-p)^{n-k},k=1,2,...n P(X=k)=Cnkpk(1p)nkk=1,2,...n

该公式可以用以下方法理解:我们希望有k次成功(p)和n−k次失败(1 −p)。并且,k次成功可以在n次试验的任何地方出现,而把k次成功分布在n次试验中共有 C n k C_{n}^{k} Cnk个不同的方法。

3.4 泊松分布

泊松分布的概率函数为:
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , . . . P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,... P(X=k)=k!λkeλk=0,1,...
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
应用示例
泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。
观察事物平均发生m次的条件下,实际发生x次的概率P(x)可用下式表示:
P ( x ) = m x x ! × e − m P(x)=\frac{m^x}{x!}\times e^{-m} P(x)=x!mx×em

3.5 超几何分布

超几何分布是统计学上一种离散概率分布。它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。超几何分布中的参数是M,N,n,上述超几何分布记作X~H(n,M,N)。
产品抽样检查中经常遇到一类实际问题,假定在N件产品中有M件不合格品,即不合格率 p = M N p=\frac{M}{N} p=NM。在产品中随机抽n件做检查,发现k件不合格品的概为:
P ( X = k ) = C M k C N − M n − k C N n , k = 0 , 1 , 2... m i n { n , M } 。 P(X=k)=\frac{C_{M}^{k}C_{N-M}^{n-k}}{C_{N}^{n}},k=0,1,2...min\{n,M\}。 P(X=k)=CNnCMkCNMnkk=0,1,2...min{n,M}

3.6 均匀分布

在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
均匀分布的概率密度函数为:
f ( x ) = { 1 b − a a < x < b 0 e l s e f(x)= \begin{cases} \frac{1}{b-a}&a<x<b \\ 0 &else \end{cases} f(x)={ba10a<x<belse

3.7 指数分布

指数函数的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。
概率密度函数
f ( x ) = { λ e − λ x x > 0 0 x ≤ 0 f(x)= \begin{cases} \lambda e^{-\lambda x}&x>0 \\ 0 &x\leq0 \end{cases} f(x)={λeλx0x>0x0
其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的区间是[0, ∞ \infin )。 如果一个随机变量X呈指数分布,则可以写作:X~ E(λ)。

3.8 正态分布

若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为X ~N(μ, σ 2 σ^2 σ2)。其正态分布的期望值μ决定了概率密度函数的位置,其标准差σ决定了概率密度函数分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
X ~ N ( μ , σ 2 ) X ~ N(μ,σ^2) XN(μσ2),则 Y = X − μ σ ~ N ( 0 , 1 ) Y=\frac {X-μ}{σ}~ N(0,1) Y=σXμN(01)
其概率密度函数为:
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2π}σ} e^{- \frac{{(x-μ)}^2}{2σ^2}} f(x)=2π σ1e2σ2(xμ)2

4. 极大似然估计

极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法。一般说来,事件A发生的概率与某一未知参数 θ \theta θ有关, θ \theta θ取值不同,则事件A发生的概率 P ( A ∣ θ ) P(A|\theta) P(Aθ)也不同,当我们在一次试验中事件A发生了,则认为此时的 θ \theta θ值应是一切可能取值中使 P ( A ∣ θ ) P(A|\theta) P(Aθ)达到最大的那一个,极大似然估计法就是要选取这样的 θ ^ \hat\theta θ^值,使所选取的样本在被选的总体中出现的可能性为最大。

从这里可以看出极大似然估计是一种估计方法,但不是平白无故的估计,通常需要一定的样本作为依据。例如,我们知道一个箱子有黑白两种球,一种有99个,另一种有1个,但是不知道是黑球99个还是白球99个,这里未知参数 θ \theta θ相当于黑球的数量,事件A相当于摸出球的颜色。当我们摸出一个球样本就选定了,事件A也发生了(假设摸出的是黑球),那么未知参数的估计值就通过使事件A发生的概率最大来确定,所以我们有理由确定黑球的数量是99个。
求解未知参数 θ \theta θ步骤
(1) 写出概率(离散随机变量)/密度(连续随机变量)函数 p ( x i ) / f ( x ) p(x_i)/f(x) p(xi)/f(x)
(2)写出似然函数 L ( θ ) = L ( x 1 , x 2 , . . . , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) L(\theta)=L(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta) L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ),其中 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn是观测值;
(3) 对似然函数取对数,并整理;
(4) 求导数 ;
(5) 解似然方程 。
宋浩老师求正态分布μ和 σ 2 σ^2 σ2的极大似然估计板书。
在这里插入图片描述
注:求得的 μ μ μ σ 2 σ^2 σ2应该用 μ ^ \hatμ μ^ σ ^ 2 \hatσ^2 σ^2表示。
视频链接

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是浩浩子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值