文章目录
1、随机事件及其概率
1.1 随机事件的几个基本概念
- 试验和事件:在同一组条件下,对某事件或现象进行观察或实验叫作『试验』,把观察或试验的结果叫作『事件』。
- 随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件。随机事件是概率论研究的范畴。
- 必然事件
- 不可能事件
- 基本事件/简单事件:如果一个事件不能分解成两个或多个事件,则称这个事件未基本事件;
- 样本空间:一个试验中所有基本事件的全体称为样本空间或基本空间。
1.2 事件的概率
事件A的概率是对事件A在试验中出现的可能性大小的一种度量。概率的「统计定义如下」:
在『相同条件下』随机试验n次,某事件A出现m次(m<=n),则比值m/n称为事件发生的「频率」。随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个『频率的稳定值』即为该事件的概率,记为:
P ( A ) = m n = p P(A) = \frac{m}{n}=p P(A)=nm=p
2、离散型随机变量及其分布
2.1 基本概念
- P ( x ) P(x) P(x): x x x称为 P ( x ) P(x) P(x)的随机变量, P ( x ) P(x) P(x)称为 x x x的概率函数;
- 随机变量分为『离散型随机变量』和『连续型随机变量』;
- 期望值和加权平均数的区别:加权平均数是具体数据的平均指标,而期望值一般指随机变量 x x x的期望指标;
- 离散系数 = 标准差 / 期望,可以用来比较不同期望值的总体之间的离中趋势。
2.2 分布
2.2.1 二项分布
- 又叫 n n n次重复独立试验 、 n n n重贝努里试验
- 包含 n n n个相同的试验;
- 每次试验只有两种可能的结果;
- 出现“成功”的概率 p p p是相同的,出现“失败”的概率 q q q也是如此, p + q = 1 p+q=1 p+q=1;
- 试验是互相独立的;
- 试验“成功”或“失败”可以计数,即试验结果对应于一个离散型随机变量;
如果随机变量 x x x服从参数为 n n n和 p p p的二项分布,我们记为: X ~ B ( n , p ) X ~B(n,p) X~B(n,p) 。
n次试验中正好得到k次成功的概率由概率质量函数给出:
P
(
X
=
x
)
=
C
n
x
p
x
q
n
−
x
,
x
=
0
,
1
,
2
,
.
.
.
,
n
P(X = x) = C_n^xp^xq^{n-x}, x = 0, 1, 2, ..., n
P(X=x)=Cnxpxqn−x,x=0,1,2,...,n
当
n
=
1
n=1
n=1时得到0-1分布:
P
(
X
=
x
)
=
p
x
q
1
−
x
,
x
=
0
,
1
P(X = x) = p^xq^{1-x}, x = 0, 1
P(X=x)=pxq1−x,x=0,1
如果
X
X
X是服从二项分布的随机变量,那么
X
X
X的期望值为:
E
(
x
)
=
n
p
E(x) = np
E(x)=np
X
X
X的方差为:
D
(
x
)
=
n
p
(
1
−
p
)
D(x) = np(1-p)
D(x)=np(1−p)
二项分布的概率质量函数图像为:
二项分布的累积分布函数为:
2.2.2 泊松分布
- 定义:泊松分布是用来描述指定时间范围内或在指定面积或体积内,某一事件出现次数的分布。
- 例如:某企业每月发生事故的次数、单位时间内到达服务柜台需要服务的顾客人数;
- 在n重贝努里试验中,当成功的概率很小(即p→0),试验次数很大时,二项分布近似等于泊松分布。
- 在实际应用中,当p<=0.25, n>20, np<=5时,用泊松分布近似二项分布的效果良好。
如果随机变量 x x x服从参数为 λ \lambda λ的二项分布,我们记为: X ~ P o s s i o n ( n , p ) X ~Possion(n,p) X~Possion(n,p)或 X ~ π ( n , p ) X ~\pi(n,p) X~π(n,p) 。
泊松分布的概率质量函数为:
P
(
X
)
=
λ
x
e
−
λ
x
!
P(X) = \frac{\lambda^xe^{-\lambda}}{x!}
P(X)=x!λxe−λ
如果
X
X
X是服从泊松分布的随机变量,那么
X
X
X的期望值为:
E
(
x
)
=
λ
E(x) = \lambda
E(x)=λ
X
X
X的方差为:
D
(
x
)
=
λ
D(x) =\lambda
D(x)=λ
泊松分布的概率质量函数为:
泊松分布的累积分布函数为:
3、连续型随机变量的概率分布
3.1 基本概念
由于连续型随机变量可以取某区间上的任意一个值,所以我们不能跟对离散型随机变量一样列出每个值及其相应的概率,而是通常用数学函数和分布函数的形式来描述。
当用 f ( x ) f(x) f(x)来描述连续型随机变量时,我们称 f ( x ) f(x) f(x)为『概率密度函数』(PDF: probability density function)(对应的离散型概率分布称为概率质量分布,PMF:probability mass function)。
概率密度函数应该满足以下两个条件:
(1)
f
(
x
)
≥
0
f(x) \ge 0
f(x)≥0
(2)
∫
−
∞
∞
f
(
x
)
d
x
=
1
\int_{-\infty}^{\infty}f(x)dx = 1
∫−∞∞f(x)dx=1
需要指出的是, f ( x ) f(x) f(x)并不是一个概率,即 f ( X ) ! = P ( X = x ) f(X) != P(X=x) f(X)!=P(X=x), f ( x ) f(x) f(x)称为概率密度函数,而 P ( X = x ) P(X=x) P(X=x)在连续分布的条件下为0。在连续分布的情况下,以曲线下面的面积表示概率:
连续型随机变量的概率也可以用「分布函数」 F ( x ) F(x) F(x)来表示,显然,分布函数是建立在密度函数f(x)之上的,连续型随机变量的概率密度是其分布函数的导数。
3.2 正态分布
– 正态分布的定义及图形特点:「对称钟形」
– 均值决定了图形的中心位置,方差决定了图形曲线的陡峭程度;方差越小曲线越陡峭,方差越大曲线越平缓。
–标准正态分布:标准正态分布的重要性在于,任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。
如果**随机变量 x x x服从平均数为 μ \mu μ、标准差为 σ \sigma σ的常态分布,我们记为: X ~ N ( μ , σ 2 ) X ~N(\mu,\sigma^2) X~N(μ,σ2) 。
泊松分布的概率质量函数为:
P
(
X
)
=
λ
x
e
−
λ
x
!
P(X) = \frac{\lambda^xe^{-\lambda}}{x!}
P(X)=x!λxe−λ
正态分布的概率密度函数为:
正态分布的累积分布函数为:
参考资料
[1] 贾俊平. (2018). 统计学 (第7版). 中国人民大学出版社。
[2] 对泊松分布的通俗理解
[3] 维基百科二项分布
[4] 维基百科泊松分布
[5] 维基百科正态分布