概念介绍
统计学分为两个学派,分别是“频率学派(frequentist)”和“贝叶斯学派(Bayesian)”。这两个学派的区别在于对概率这个概念的解释,频率学派认为一个事件发生的概率是长期的极限频率,即随着数据增加,频率不断向概率靠拢,但是在现实中,如果数据量不大,计算出的频率与实际概率可能会有很大差距。贝叶斯学派则认为概率是主观的(subjective),是一种信念度,随着数据和信息的增加而变化。不确定性与概率在概念上存在一定的联系,频率学派与贝叶斯学派最大的区别在于对不确定性的看法。频率学派认为不确定性本质是随机变量实现过程中的随机性,而变量的概率分布(probability distribution)并不存在不确定性,例如某个数据的分布服从正态分布,而其中一个随机变量出现具有不确定性。与此相对,贝叶斯学派认为概率分布是不确定的,并且随着新信息的获取而不断修正,不确定性体现于这种概率的不断修正。新信息获取前后的概率分别称为前验概率(prior probability)和后验概率(posterior probability)。贝叶斯分析的核心是利用概率来描述一个统计模型中的不确定性。它是最大似然估计(maximum likelihood estimation)的一种扩展,是统计学模型拟合效率最高的一种方式。
描述不确定性需要3个元素:
1. 数据(data)
2. 一个生成模型(generative model)
3. 先验(priors,模型参数,模型在接触数据之前所拥有的信息)