这篇笔记,主要记录花书第三章关于概率知识和信息论知识的回顾。概率论在机器学习建模中的大量使用令人吃惊。因为机器学习,常常需要处理很多不确定的量。不确定的量可能来自模型本身的随机性、对外在失误的不完全观测以及不完全的建模。
其实在这之前,已经有两篇文章重点介绍过概率论的部分知识:协方差&贝叶斯统计的知识。这篇笔记只是记录了花书中的重点,并不是通俗的解释相关概率论只是,想了解更多内容,下面是传送门:
随机变量
随机变量(random variable):随机变量是一个可以随机取不同值的一个变量,它可以是离散的,也可以是连续的。
概率分布
概率分布(probability distribution):用来描述随机变量或者一簇随机变量每一个能取到的状态的可能性大小。
概率质量函数(probability mass function PMF):离散型随机变量的概率分布。
如果一个函数P是随机变量x的PMF,必须满足如下性质:
1. P的定义域必须是x所有可能状态的集合。
2. ∀x∈x, 0<= P(x) <=1。
3. ∑xP(x)=1. 这个性质称为归一化。
联合概率分布(joint probability distribution):多个变量的概率分布。
概率密度函数(probability density function PDF):连续性随机变量的概率分布。概率密度函数p(x)并没有直接对特定的状态给出概率,而是给出落在面积为δx的无限小的区域内的概率为p(x)δx。
如果一个函数p是x的PDF,必须满足如下性质。
1. p的定义域必须是x所有可能状态的集合。
2. ∀x∈x, p(x) >= 0。(不要求p(x)<=1)
3. ∫p(x)dx=1:
边缘概率(marginal probability):定义在一组变量联合概率分布中,其中一个子集的的概率分布,称为边缘概率分布。
条件概率(conditionalprobability):某个事件在给定其他事件发生时,出现的概率。表示为:
条件概率的链式法则(The Chain Rule of Conditional Probabilities):任意多维随机变量的的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式。表示为:
独立性(Independence):如果两个随机变量x,y,如果他们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含x,另一个因子只包含y,则这两个随机变量是相互独立的。表示为: