频率派频率(frequentist probability):直接与事件发生的频率相联系,多数事件是可重复的(如放回的纸牌抽取事件)
贝叶斯频率(Bayesian probability):涉及到确定性水平的频率,用于表达一种信任度(degree of belief),是不可重复进行的。比如,用于诊断病人患流感的几率。
概率分布:用于描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。
概率质量函数(probability mass function, PMF):用于描述离散型变量的概率分布。其需要满足两条性质:
- ∀x∈X,0≤P(x)≤1 ∀ x ∈ X , 0 ≤ P ( x ) ≤ 1
- ∑x∈XP(x)=1 ∑ x ∈ X P ( x ) = 1
概率密度函数(probability density dunction, PDF):用于描述连续型随机变量的概率分布。其需要满足三条性质:
- p 的定义域必须是 x 所有可能状态的集合
- ∀x∈X,p(x)≥0. ∀ x ∈ X , p ( x ) ≥ 0. 注意,我们并不要求 p(x)≤1 p ( x ) ≤ 1 。
- ∫p(x)dx=1. ∫ p ( x ) d x = 1.
边缘概率分布:已知一组变量的联合概率分布,但想要了解其中一个子集的概率分布,这是种定义在子集上的概率分布。比如知道 P(x,y) P ( x , y ) 。根据求和法则 ∀x1∈X,P(x=χ)=∑γP(x=χ,y=γ) ∀ x 1 ∈ X , P ( x = χ ) = ∑ γ P ( x = χ , y = γ )
条件概率:在给定某事件发生时出现另一事件的概率。
贝叶斯规则:
其中, P(y)=∑xP(y|x)P(x) P ( y ) = ∑ x P ( y | x ) P ( x ) ,即使用求和法则计算。
信息论
信息论用于机器学习上,主要用于描述概率分布或者量化概率分布之间的相似性。信息论的基本思想是一个不太可能发生的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。比如,信息说:“今天早上太阳升起”,其信息量非常少以至于没必要发送,但一条信息说:“今天早上有日食”,这信息量就很丰富。
通过基本思想,我们可以得到三个性质:
- 非常可能发生的事件信息量要比较少,并且在极端情况下,确保能够发生的事件应该没有信息量。
- 较不可能发生的事件具有更高的信息量。
- 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。
为了满足上述三个性质,我们定义一个事件 x=χ x = χ 的自信息(self-information)为I(x)=−logP(x) I ( x ) = − l o g P ( x )
自信息只处理单个的输入。我们可以用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化H(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)] H ( x ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ l o g P ( x ) ]
也记作H(P)。换言之,一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。它给出了对依据概率分布P 生成的符号进行编码所需的比特数在平均意义上的下界(当对数底数不是2 时,单位将有所不同)。那些接近确定性的分布(输出几乎可以确定) 具有较低的熵;那些接近均匀分布的概率分布具有较高的熵。当x 是连续的,香农熵被称为微分熵(differential entropy)。