概率论提供了一种量化不确定性的方法和和推导新的不确定陈述的公理,在人工智能领域,主要有两种应用,第一:概率法则告诉我们AI系统是如何推断的;第二:我们可以用概率论和统计来对AI的行为进行理论分析。
- 概率论使我们得出不确定陈述和不确定性存在的原因;
- 信息论使我们能够量化概率分布的不确定性。
1- Why Probability?
不确定性有三种可能的来源:
- 被建模系统内在的随机性。
- 不完全观测。
- 不完全建模。模型舍弃了一些观测信息
频率派概率( frequentist probability f r e q u e n t i s t p r o b a b i l i t y ):通过大量的可重复性实验,观测某一事件出现的频率,用于表示该事件的概率。
贝叶斯概率( Bayesian probability B a y e s i a n p r o b a b i l i t y ): 对于不可重复性的命题 ,推断者通过一定的置信度( degree of belief d e g r e e o f b e l i e f ),来表示事件的可能性。
为满足所期望的性质,将频率派概率和贝叶斯概率视为等同的。
2-随机变量
随机变量是可以随机取不同的值得变量,表示方式如下:
- 随机变量: x x , 随机变量的取值: xi x i
- 随机向量: x x (加粗),随机向量的取值 xi x i
3- 概率分布
概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小
3-1 离散型随机变量
离散型随机变量用概率质量函数( Probability mass function,PMF P r o b a b i l i t y m a s s f u n c t i o n , P M F )来描述。例如,
随机变量 x x 的PMF: P(x) P ( x ) ,则 x∼P(x) x ∼ P ( x )
变量值 xi x i 的概率: P(xi) P ( x i )
联合概率分布用于表示多个变量的概率分布: P(x=x,y=y) P ( x = x , y = y )
PMF必须满足的几个条件:
- P的定义域必须是 x x 所有状态的集合
- ∀xi∈x,0≤P(x)≤1 ∀ x i ∈ x , 0 ≤ P ( x ) ≤ 1
- ∑xi∈xP(xi)=1 ∑ x i ∈ x P ( x i ) = 1
3-2连续性随机变量
连续型变量用概率密度函数( Probability density function,PDF P r o b a b i l i t y d e n s i t y f u n c t i o n , P D F )描述。用 p p 来表示。
函数
需要满足条件:
- p p 的定义域必须是 所有状态的集合
- ∀xi∈x,0≤p(xi) ∀ x i ∈ x , 0 ≤ p ( x i ) ,不要求 p(xi)≤1 p ( x i ) ≤ 1
- ∫p(x)dx=1 ∫ p ( x ) d x = 1
例:
实数区间的均匀分布用 u(x;a,b) u ( x ; a , b ) 表示, x∼U(a,b) x ∼ U ( a , b ) ;区间的端点 a,b a , b 满足 a<b a < b , 符号 “:” “ : ” 表示以什么为参数。
4-边缘概率
边缘概率分布( margin probability distribution m a r g i n p r o b a b i l i t y d i s t r i b u t i o n )是指在已知一组随机变量联合概率分布的情况下,求其中一个子集的概率分布。例如:
离散型随机变量 x,y x , y ,且已知其联合概率分布 P(x,y) P ( x , y ) ,则利用求和法则来计算边缘分布: P(x=x)=∑yP(x=x,y=y) P ( x = x ) = ∑ y P ( x = x , y = y )
连续性随机变量:使用积分表示 p(x=x)=∫p(x=x,y=y)dy p ( x = x ) = ∫ p ( x = x , y = y ) d y
5-条件概率
条件概率( conditi