概率论(probability theory)也是人工智能研究中必备的数学基础。随着连接主义学派的兴起,概率统计已经取代了数理逻辑,成为人工智能研究的主流工具。
同线性代数一样,概率论也代表了一种看待世界的方式,其关注的焦点是无处不在的可能性。对随机事件发生的可能性进行规范的数学描述就是概率论的公理化过程。概率的公理化结构体现出的是对概率本质的一种认识。
将同一枚硬币抛掷 10 次,其正面朝上的次数既可能一次没有,也可能全部都是,换算成频率就分别对应着 0% 和 100%。频率本身显然会随机波动,但随着重复试验的次数不断增加,特定事件出现的频率值就会呈现出稳定性,逐渐趋近于某个常数。
从事件发生的频率认识概率的方法被称为“频率学派”(frequentist probability),频率学派口中的“概率”,其实是一个可独立重复的随机实验中单个结果出现频率的极限。因为稳定的频率是统计规律性的体现,因而通过大量的独立重复试验计算频率,并用它来表征事件发生的可能性是一种合理的思路。
在概率的定量计算上,频率学派依赖的基础是古典概率模型。在古典概率模型中,试验的结果只包含有限个基本事件,且每个基本事件发生的可能性相同。假设所有基本事件的数目为 n,待观察的随机事件 A 中包含的基本事件数目为 k,则古典概率模型下事件概率的计算公式为:
从这个基本公式就可以推导出复杂的随机事件的概率。
前文中的概率定义针对都是单个随机事件,可如果要刻画两个随机事件之间的关系,这就需要引入条件概率的概念。
条件概率(conditional probability)是根据已有信息对样本空间进行调整后得到的新的概率分布。假定有两个随机事件 AA和BB,条件概率就是指事件 AA 在事件 BB已经发生的条件下发生的概率,用以下公式表示: