没找到中文翻译,只能自己做翻译了(未完待填坑)
概率论是对不确定性的研究。通过这个课程,我们将依靠概率论的概念来推导机器学习算法。 本文试图概括适合于CS 229水平的概率论基础知识。概率的数学理论非常复杂,其深层次内容为测量理论的分支。 在这些文档中,我们提供了概率的基本处理,但没有解决这些细节问题。
1、概率基本元素
为了定义集合上的概率,我们需要一些基本元素:
• 样本空间
Ω
\Omega
Ω:随机实验的所有结果的集合。在这里,每个结果
ω
∈
Ω
\omega \in \Omega
ω∈Ω可以被认为是实验结束时现实世界状态的完整描述。
•事件集(或事件域)
ϝ
\digamma
ϝ:事件域是指一个样本空间
Ω
\Omega
Ω中某些子集
A
∈
ϝ
A \in \digamma
A∈ϝ 组成的集合类(
A
⊆
Ω
A\subseteq \Omega
A⊆Ω是实验可能结果的集合)。
•概率公理化定义:函数
P
:
ϝ
→
R
P:\digamma→\mathbb{R}
P:ϝ→R ,并且具有一下属性:
非负性:所有
A
∈
ϝ
A \in \digamma
A∈ϝ都有
P
(
A
)
≥
0
P(A)\ge0
P(A)≥0
规范性:
P
(
Ω
)
=
0
P(\Omega)=0
P(Ω)=0
可列可加性:若
A
1
,
A
2
,
⋯
A_1,A_2,\cdots
A1,A2,⋯是不相交事件(即,
A
i
∩
A
j
=
∅
,
i
≠
j
A_i \cap A_j=\empty,i \ne j
Ai∩Aj=∅,i=j),则有:
P
(
∪
i
A
i
)
=
∑
i
P
(
A
i
)
P(\cup_iA_i)=\displaystyle \sum_iP(A_i)
P(∪iAi)=i∑P(Ai)
这三个属性被称为概率的公理。
**示例:**例如抛掷6面骰子。样本空间为
Ω
=
{
1
,
2
,
3
,
4
,
5
,
6
}
Ω= \{1,2,3,4,5,6\}
Ω={1,2,3,4,5,6}。我们可以在此样本空间上定义不同的事件域。 例如,最简单的事件域是
F
=
{
∅
,
Ω
}
F = \{∅,Ω\}
F={∅,Ω}。 另一个事件空间是Ω的所有子集的集合。 对于第一个事件空间,满足上述要求的唯一概率测度由
P
(
∅
)
=
0
,
P
(
Ω
)
=
1
P(∅)= 0,P(Ω)= 1
P(∅)=0,P(Ω)=1给出。对于第二个事件空间,一个有效的概率计算是事件空间中每个集合的概率为
i
6
\frac{i}{6}
6i,其中i是该集合的元素数量; 例如,
P
(
{
1
,
2
,
3
,
4
}
)
=
4
6
P(\{1,2,3,4\})= \frac{4}{6}
P({1,2,3,4})=64,
P
(
{
1
,
2
,
3
}
)
=
3
6
P(\{1,2,3\})= \frac{3}{6}
P({1,2,3})=63。
属性:
- A ⊆ B ⇒ P ( A ) ≤ P ( B ) A ⊆ B ⇒ P(A) ≤ P(B) A⊆B⇒P(A)≤P(B).
- P ( A ∩ B ) ≤ m i n ( P ( A ) , P ( B ) ) P(A ∩ B) ≤ min(P(A), P(B)) P(A∩B)≤min(P(A),P(B)).
- P ( A ∪ B ) ≤ P ( A ) + P ( B ) P(A ∪ B) ≤ P(A) + P(B) P(A∪B)≤P(A)+P(B).
- P ( Ω A ) = 1 − P ( A ) P(Ω \ A) = 1 − P(A) P(Ω A)=1−P(A).
- 若
A
1
,
A
2
,
⋯
,
A
k
A_1,A_2,\cdots,A_k
A1,A2,⋯,Ak是不相交事件,且
∪
i
=
1
k
A
i
=
Ω
∪_{i=1}^kA_i = Ω
∪i=1kAi=Ω,则:
∑ i k P ( A k ) = 1 \displaystyle \sum_i^kP(A_k) = 1 i∑kP(Ak)=1
1.1、条件概率和独立性
设B是具有非零概率的事件。在给定B条件下,A的条件概率定义为
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)= \frac{P(A ∩ B)} {P(B)} P(A∣B)=P(B)P(A∩B)
换句话说, P ( A ∣ B ) P(A | B) P(A∣B)是观察事件B发生后事件A的概率。当且仅当 P ( A ∩ B ) = P ( A ) P ( B ) P(A∩B)= P(A)P(B) P(A∩B)=P(A)P(B)时,两个事件被称为独立事件。(或等效地, P ( A ∣ B ) = P ( A ) P(A | B)= P(A) P(A∣B)=P(A))。 因此,独立性相当于说B对A的概率没有任何影响。
2、随机变量
考虑一个10次抛硬币的实验,我们想知道出现的头的次数。 这里,样本空间Ω的元素是10个长度的头或花序列。 例如,我们可能有 w 0 = ⟨ H , H , T , H , T , H , H , T , T , T ⟩ ∈ Ω w_0 = \langle H,H,T,H,T,H,H,T,T,T \rangle ∈Ω w0=⟨H,H,T,H,T,H,H,T,T,T⟩∈Ω。 然而,在实践中,我们通常不关心获得任何头或花序列的可能性。相反,我们通常关心结果的数值函数,例如在我们的10次投掷中出现的头数,或者最长连续花的数量。在某些技术条件下,这些函数称为随机变量。
更正式地,随机变量X是函数 X : Ω → R 2 X:Ω→\mathbb{R}^2 X:Ω→R2。 通常,我们将使用大写字母 X ( ω ) X(ω) X(ω)或更简单地 X X X(其中隐含对随机结果ω的依赖性)来表示随机变量。 我们将使用小写字母 x x x表示随机变量可能采用的值。
**示例:**在上面的实验中,假设 X ( ω ) X(ω) X(ω)是在投掷序列ω中出现的头数。 假设只抛出10次硬币, X ( ω ) X(ω) X(ω)只能获取有限数量的值,因此它被称为离散随机变量。 这里,与随机变量X相对应的集合在某个特定值k上的概率是:
p ( X = k ) : = P ( { ω : X ( ω ) = k } ) p(X=k):=P(\{ω:X(ω)=k\}) p(X=k):=P({ω:X(ω)=k})
**示例:**假设 X ( ω ) X(ω) X(ω)是一个随机变量,表示放射性粒子衰变所需的时间。 在这种情况下, X ( ω ) X(ω) X(ω)具有无限数量的可能值,因此称为连续随机变量。 我们用X表示在两个实常数a和b(其中 a < b a <b a<b)之间的概率:
p ( a ≤ X ≤ b ) : = P ( { ω : a ≤ X ( ω ) ≤ b } ) p(a≤ X≤ b):=P(\{ω:a≤ X(ω)≤ b\}) p(a≤X≤b):=P({ω:a≤X(ω)≤b})
2.1、累积分布函数
为了指定在处理随机变量时使用的概率度量,通常很容易指定替代函数(CDF,PDF和PMF),从中可以立即控制实验的概率测量。 在本节和接下来的两节中,我们依次描述这些类型的函数。