数据挖掘day12-CS229-Review of Probability Theory

没找到中文翻译,只能自己做翻译了(未完待填坑)

概率论是对不确定性的研究。通过这个课程,我们将依靠概率论的概念来推导机器学习算法。 本文试图概括适合于CS 229水平的概率论基础知识。概率的数学理论非常复杂,其深层次内容为测量理论的分支。 在这些文档中,我们提供了概率的基本处理,但没有解决这些细节问题。

1、概率基本元素

为了定义集合上的概率,我们需要一些基本元素:
• 样本空间 Ω \Omega Ω:随机实验的所有结果的集合。在这里,每个结果 ω ∈ Ω \omega \in \Omega ωΩ可以被认为是实验结束时现实世界状态的完整描述。
•事件集(或事件域) ϝ \digamma ϝ:事件域是指一个样本空间 Ω \Omega Ω中某些子集 A ∈ ϝ A \in \digamma Aϝ 组成的集合类( A ⊆ Ω A\subseteq \Omega AΩ是实验可能结果的集合)。
•概率公理化定义:函数 P : ϝ → R P:\digamma→\mathbb{R} P:ϝR ,并且具有一下属性:
非负性:所有 A ∈ ϝ A \in \digamma Aϝ都有 P ( A ) ≥ 0 P(A)\ge0 P(A)0
规范性: P ( Ω ) = 0 P(\Omega)=0 P(Ω)=0
可列可加性:若 A 1 , A 2 , ⋯ A_1,A_2,\cdots A1,A2,是不相交事件(即, A i ∩ A j = ∅ , i ≠ j A_i \cap A_j=\empty,i \ne j AiAj=,i=j),则有:

P ( ∪ i A i ) = ∑ i P ( A i ) P(\cup_iA_i)=\displaystyle \sum_iP(A_i) P(iAi)=iP(Ai)
这三个属性被称为概率的公理。
**示例:**例如抛掷6面骰子。样本空间为 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } Ω= \{1,2,3,4,5,6\} Ω={1,2,3,4,5,6}。我们可以在此样本空间上定义不同的事件域。 例如,最简单的事件域是 F = { ∅ , Ω } F = \{∅,Ω\} F={Ω}。 另一个事件空间是Ω的所有子集的集合。 对于第一个事件空间,满足上述要求的唯一概率测度由 P ( ∅ ) = 0 , P ( Ω ) = 1 P(∅)= 0,P(Ω)= 1 P()=0P(Ω)=1给出。对于第二个事件空间,一个有效的概率计算是事件空间中每个集合的概率为 i 6 \frac{i}{6} 6i,其中i是该集合的元素数量; 例如, P ( { 1 , 2 , 3 , 4 } ) = 4 6 P(\{1,2,3,4\})= \frac{4}{6} P({1,2,3,4})=64, P ( { 1 , 2 , 3 } ) = 3 6 P(\{1,2,3\})= \frac{3}{6} P({1,2,3})=63
属性:

  • A ⊆ B ⇒ P ( A ) ≤ P ( B ) A ⊆ B ⇒ P(A) ≤ P(B) ABP(A)P(B).
  • P ( A ∩ B ) ≤ m i n ( P ( A ) , P ( B ) ) P(A ∩ B) ≤ min(P(A), P(B)) P(AB)min(P(A),P(B)).
  • P ( A ∪ B ) ≤ P ( A ) + P ( B ) P(A ∪ B) ≤ P(A) + P(B) P(AB)P(A)+P(B).
  • P ( Ω   A ) = 1 − P ( A ) P(Ω \ A) = 1 − P(A) P( A)=1P(A).
  • A 1 , A 2 , ⋯   , A k A_1,A_2,\cdots,A_k A1,A2,,Ak是不相交事件,且 ∪ i = 1 k A i = Ω ∪_{i=1}^kA_i = Ω i=1kAi=,则:
    ∑ i k P ( A k ) = 1 \displaystyle \sum_i^kP(A_k) = 1 ikP(Ak)=1

1.1、条件概率和独立性

设B是具有非零概率的事件。在给定B条件下,A的条件概率定义为

P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)= \frac{P(A ∩ B)} {P(B)} P(AB)=P(B)P(AB)

换句话说, P ( A ∣ B ) P(A | B) PAB是观察事件B发生后事件A的概率。当且仅当 P ( A ∩ B ) = P ( A ) P ( B ) P(A∩B)= P(A)P(B) P(AB)=P(A)P(B)时,两个事件被称为独立事件。(或等效地, P ( A ∣ B ) = P ( A ) P(A | B)= P(A) P(AB)=P(A))。 因此,独立性相当于说B对A的概率没有任何影响。

2、随机变量

考虑一个10次抛硬币的实验,我们想知道出现的头的次数。 这里,样本空间Ω的元素是10个长度的头或花序列。 例如,我们可能有 w 0 = ⟨ H , H , T , H , T , H , H , T , T , T ⟩ ∈ Ω w_0 = \langle H,H,T,H,T,H,H,T,T,T \rangle ∈Ω w0=HHTHTHHTTTΩ。 然而,在实践中,我们通常不关心获得任何头或花序列的可能性。相反,我们通常关心结果的数值函数,例如在我们的10次投掷中出现的头数,或者最长连续花的数量。在某些技术条件下,这些函数称为随机变量。

更正式地,随机变量X是函数 X : Ω → R 2 X:Ω→\mathbb{R}^2 XΩR2。 通常,我们将使用大写字母 X ( ω ) X(ω) X(ω)或更简单地 X X X(其中隐含对随机结果ω的依赖性)来表示随机变量。 我们将使用小写字母 x x x表示随机变量可能采用的值。

**示例:**在上面的实验中,假设 X ( ω ) X(ω) X(ω)是在投掷序列ω中出现的头数。 假设只抛出10次硬币, X ( ω ) X(ω) X(ω)只能获取有限数量的值,因此它被称为离散随机变量。 这里,与随机变量X相对应的集合在某个特定值k上的概率是:

p ( X = k ) : = P ( { ω : X ( ω ) = k } ) p(X=k):=P(\{ω:X(ω)=k\}) p(X=k):=P({ω:X(ω)=k})

**示例:**假设 X ( ω ) X(ω) X(ω)是一个随机变量,表示放射性粒子衰变所需的时间。 在这种情况下, X ( ω ) X(ω) X(ω)具有无限数量的可能值,因此称为连续随机变量。 我们用X表示在两个实常数a和b(其中 a < b a <b a<b)之间的概率:

p ( a ≤ X ≤ b ) : = P ( { ω : a ≤ X ( ω ) ≤ b } ) p(a≤ X≤ b):=P(\{ω:a≤ X(ω)≤ b\}) p(aXb):=P({ω:aX(ω)b})

2.1、累积分布函数

为了指定在处理随机变量时使用的概率度量,通常很容易指定替代函数(CDF,PDF和PMF),从中可以立即控制实验的概率测量。 在本节和接下来的两节中,我们依次描述这些类型的函数。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值