频率论和贝叶斯论
频率论
频率论的概率:事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。
频率论观点:通过重复随机事件的发生的频率来考察概率。
贝叶斯论
贝叶斯(Bayesian)观点:量化描述了频率的不确定性。
贝叶斯的观点:能够使用概率论的机制,描述模型参数 w 或模型选择的不确定性。
例如:盒子中的水果的例子,水果种类的确定,为选择红盒的概率提供了相关的信息。
- 贝叶斯定理通过观测到的数据提供的证据,把先验概率转化为了后验概率。
- 进行数量的推断,如:多项式曲线拟合中的参数
w ,可以采用同样的方法。贝叶斯定理的公式:
p(w|D)=p(D|w)p(w)p(D)在观测数据之前,以先验概率 p(w) 的形式给出了,一些关于参数 w 的假设。观测到的数据
D=t1,...,tn 的影响,是通过条件概率 p(D|w) 来表达的可以根据观测到 D 后的后验概率
p(w|D) 来估计 w 的不确定性。似然函数
贝叶斯定理右侧的量
p(D|w) 由观测到的数据集 D 来估计,可以被看成参数向量w 的似然函数(likelihood function)。不同的参数向量 w 的情况下,观测到的数据集的可能性
在贝叶斯和频率论观点中,似然函数
p(D|w) 都起着重要作用。然而,在这两种观点中它的使用方式有着本质的不同。- 频率论的观点中,
w
被当作固定的参数,它的值是由某种形式的估计来确定的,这个估计误差是由可能的数据集
D 分布来确定的。 - 贝叶斯观点下中,只有一个数据集
D
(即实际观测到的数据集) ,参数的不确定性是通过
w 的概率分布来表示的。
最大似然(maximum likelihood)
最大似然(maximum likelihood)是频率论广泛使用的一种估计,其中 w 取使似然函数
p(D|w) 达到最大值的值,也就是使 w 的值等于使观察到的数据集出现的概率最大的值。似然函数的负对数被称为误差函数(error function)。因为负对数是一个单调递减的函数,最大化似然函数也就是最小化误差。
自助法(bootstrap)
自助法(bootstrap)是频率论中一种决定误差的方法
- 创造多个数据集:假设我们的原始数据集包含
N 个数据点 X=x1,...,xN 。- 我们可以通过随机的从
X
中取
N 个数据来创建数据集 XB 。 - 选取是可以重复的,所以有些 XX 中的点可能在 XB 中出现多次,而有些可能不出现。
- 这样的过程可以重复
L
次,得到
L 个大小为 N 的通过对原数据集X 采样得到的数据集。 - 参数估计的统计精确度就可以通过考察不同的自助数据集之间的预测变异性来进行评估。
- 我们可以通过随机的从
X
中取
- 频率论的观点中,
w
被当作固定的参数,它的值是由某种形式的估计来确定的,这个估计误差是由可能的数据集