概率论
全概率公式和贝叶斯公式
参考:浅谈全概率公式和贝叶斯公式Abner-CSDN博客贝叶斯公式和全概率公式的区别
1 条件概率
在事件
B
B
B 发生的条件下事件
A
A
A 发生的条件概率,记为
P
(
A
∣
B
)
P(A|B)
P(A∣B)
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P(A|B)=\cfrac{P(AB)}{P(B)}=\cfrac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(AB)=P(B)P(B∣A)P(A)
表示在给定条件发生变化后,导致事件发生的可能性发生变化
相互独立:表示两个事件互不影响
互斥:表示两个事件不能同时发生
互斥事件一定不独立,独立事件一定不互斥
2 全概率公式
将复杂问题分解为简单问题而后逐一解决。对一个复杂事件求概率是,希望能将其分解为若干易于计算的简单事件之和。
对于试验
E
E
E ,
A
A
A 为
E
E
E 的事件,
B
1
,
B
2
,
…
,
B
n
B_1, B_2, …, B_n
B1,B2,…,Bn 是其样本空间的一个划分,则
P
(
A
)
=
P
(
A
∣
B
1
)
P
(
B
1
)
+
P
(
A
∣
B
2
)
P
(
B
2
)
+
⋯
+
P
(
A
∣
B
n
)
P
(
B
n
)
P(A) = P(A|B_1)P(B_1) +P(A|B_2)P(B_2)+\cdots+P(A|B_n)P(B_n)
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+⋯+P(A∣Bn)P(Bn)
全概率公式表示达到某个目的,有多种方式(或者说造成某种结果,有多种原因),需要求得达到目的的概率(或者是造成这种结果的概率)?
3 贝叶斯公式
已知结果,计算导致该结果发生的第
i
i
i 种原因的可能性是多少?
P
(
B
i
∣
A
)
=
P
(
B
i
A
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
∣
B
j
)
P
(
B
j
)
(
i
=
1
,
2
,
⋯
,
n
)
P(B_i|A) = \cfrac{P(B_iA)}{P(A)}=\cfrac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n}{P(A|B_j)P(B_j)}}~~~(i=1,2,\cdots,n)
P(Bi∣A)=P(A)P(BiA)=∑j=1nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi) (i=1,2,⋯,n)
随机变量及其分布
伯努利概型
- 伯努利实验:实验只有两个结果: A A A 及 A ‾ \overline{A} A
- 伯努利概型:
- 每次实验都是相互独立的
- 每次实验有且仅有两种结果:事件 A A A 和事件 A ‾ \overline{A} A
- 每次实验的结果发生的概率相同,即 P ( A ) = p P(A)=p P(A)=p, P ( A ‾ ) = 1 − p = q P(\overline{A})=1-p=q P(A)=1−p=q
离散型随机变量
1 0-1分布
随机变量
ξ
\xi
ξ 表示伯努利实验中“成功”出现的次数,则
ξ
\xi
ξ 取0,1两个值,且
p
k
=
p
k
(
1
−
p
)
1
−
k
(
k
=
0
,
1
;
0
<
p
<
1
)
p_k=p^k(1-p)^{1-k}~~~~~~(k=0,1;0<p<1)
pk=pk(1−p)1−k (k=0,1;0<p<1)
P
(
ξ
=
1
)
=
p
P(\xi=1)=p
P(ξ=1)=p,
P
(
ξ
=
0
)
=
1
−
p
P(\xi=0)=1-p
P(ξ=0)=1−p
E ( X ) = p E(X)=p E(X)=p, D ( X ) = p ( 1 − p ) D(X)=p(1-p) D(X)=p(1−p)
2 二项分布
n
n
n 次伯努利实验中成功
k
k
k 次的概率
p
k
=
C
n
k
p
k
(
1
−
p
)
n
−
k
(
k
=
1
,
2
,
⋯
,
n
;
0
<
p
<
1
)
p_k=C_n^kp^k(1-p)^{n-k}~~~~(k=1,2,\cdots,n;0<p<1)
pk=Cnkpk(1−p)n−k (k=1,2,⋯,n;0<p<1)
E
(
X
)
=
n
p
E(X)=np
E(X)=np,
D
(
X
)
=
n
p
(
1
−
p
)
D(X)=np(1-p)
D(X)=np(1−p)
3 泊松分布
随机变量
ξ
\xi
ξ 取值 0,1,2,…,且分布列为
p
k
=
P
(
ξ
=
k
)
=
λ
k
e
−
λ
k
!
(
λ
>
0
;
k
=
0
,
1
,
2
,
⋯
)
p_k=P(\xi=k)=\cfrac{\lambda^ke^{-\lambda}}{k!}~~~~(\lambda>0;k=0,1,2,\cdots)
pk=P(ξ=k)=k!λke−λ (λ>0;k=0,1,2,⋯)
泊松分布是二线分布当
n
n
n 趋近于无穷时的极限分布
E ( λ ) = λ E(\lambda)=\lambda E(λ)=λ, D ( λ ) = λ D(\lambda)=\lambda D(λ)=λ
连续型随机变量
1 均匀分布
f
(
x
)
=
{
1
b
−
a
,
a
<
x
<
b
0
,
其
他
f(x)=\begin{cases} \cfrac{1}{b-a},~~a<x<b\\ 0,~~ 其他 \end{cases}
f(x)=⎩⎨⎧b−a1, a<x<b0, 其他
E
(
X
)
=
(
a
+
b
)
/
2
E(X)=(a+b)/2
E(X)=(a+b)/2,
D
(
X
)
=
(
b
−
a
)
2
/
12
D(X)=(b-a)^2/12
D(X)=(b−a)2/12
2 指数分布
无记忆性
f
(
x
)
=
{
1
θ
e
−
x
θ
,
x
>
0
0
,
其
他
f(x)=\begin{cases} \cfrac{1}{\theta}e^{-\cfrac{x}{\theta}},~~x>0\\ 0,~~ 其他 \end{cases}
f(x)=⎩⎪⎨⎪⎧θ1e−θx, x>00, 其他
E
(
X
)
=
1
/
λ
E(X)=1/\lambda
E(X)=1/λ,
D
(
X
)
=
1
/
λ
2
D(X)=1/\lambda^2
D(X)=1/λ2
3 正态分布
f
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
(
−
∞
<
x
<
+
∞
)
f(x)=\cfrac{1}{\sqrt{2\pi}\sigma}e^{-\cfrac{(x-\mu)^2}{2\sigma^2}}~~~(-\infty<x<+\infty)
f(x)=2πσ1e−2σ2(x−μ)2 (−∞<x<+∞)
记为
ξ
∼
N
(
μ
,
σ
2
)
\xi\sim N(\mu,\sigma^2)
ξ∼N(μ,σ2)
在一次实验中随机变量 ξ \xi ξ 落在区间 [ μ − 3 σ , μ + 3 σ ] [\mu-3\sigma,\mu+3\sigma] [μ−3σ,μ+3σ] 内,几乎是肯定的,这个结论称为 3 σ 3\sigma 3σ 规则
协方差和相关系数
随机变量
X
X
X 与
Y
Y
Y 的协方差,记为
C
o
v
(
X
,
Y
)
Cov(X,Y)
Cov(X,Y) 或
σ
X
Y
\sigma_{XY}
σXY ,即
σ
X
Y
=
C
o
v
(
X
,
Y
)
=
E
[
X
−
E
(
X
)
]
[
Y
−
E
(
Y
)
]
\sigma_{XY}=Cov(X,Y)=E[X-E(X)][Y-E(Y)]
σXY=Cov(X,Y)=E[X−E(X)][Y−E(Y)]
当 X = Y 时,方差等于协方差
随机变量
X
X
X 与
Y
Y
Y 的相关系数,记为
ρ
(
X
,
Y
)
\rho(X,Y)
ρ(X,Y) 或
ρ
X
Y
\rho_{XY}
ρXY
C
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
\cfrac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
D(X)D(Y)Cov(X,Y)
相关系数是两个随机变量线性联系密切程度的度量,越接近 1 表示线性相关的程度越好
大数定理与中心极限定理
怎样理解和区分中心极限定理与大数定律? - 猴子的回答 - 知乎
1 大数定理
如果统计数据足够大,那么事物出现的频率就能无限接近他的期望值
- 切比雪夫大数定律:随机变量的均值依概率收敛期望的均值
- 辛钦大数定律:增加了独立同分布的条件,随机变量序列的算数平均值依概率收敛于其期望值
- 伯努利大数定理:在大量的重复独立实验中,事件发生的频率依概率收敛于事件发生的概率
2 中心极限定理
-
任何一个样本的平均值将会约等于其所在总体的平均值
-
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布
作用:
- 在没有办法得到总体全部数据的情况下,可以用样本来估计总体
- 根据总体的平均值和标准差,判断某个样本是否属于总体
常用的中心极限定理
- 独立同分布中心极限定理
- 李雅普诺夫中心极限定理
- 德莫弗-拉普拉斯中心极限定理
参数估计
极大似然估计法
提供了一种给定观察数据来评估模型参数的方差
求解极大似然估计的一般步骤:
- 由总体分布写出样本的概率密度函数
- 建立似然方程
- 求导取极值,解似然方程得参数的极大似然估计
- 无偏性
-
有效性
概率和统计的区别
- 概率是已知模型和参数,推数据
- 统计是已知数据,推模型和参数。
概率和似然的区别
P
(
x
∣
θ
)
P(x|\theta)
P(x∣θ)
输入有两个:x表示某一个具体的数据;θ表示模型的参数。
- 如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。
- 如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。