贝叶斯 oracle,贝叶斯预测方法.PDF

贝叶斯预测方法

Oracle白皮书

2006年 9月更新

贝叶斯预测方法

简介

贝叶斯方法将先验和后验知识相结合来模拟时间序列数据。

预测的关键是要 也就是说,我们知道如果抛掷一枚硬币,出现正面和反面的概率

找到一个能生成最佳

均为 0.5——这是先验知识。因此,如果我们拿一枚硬币抛掷 10

预测的模型,而不是

最适合历史数据的模 次,我们预期会出现 5 次正面,5 次反面。但如果实际结果是出

型。最能解释历史数 现了 10 次正面,那我们可能会对我们的先验知识丧失信心。这

据的模型不一定是最 可以解释为硬币的变化引起了概率的改变——这就是后验知识。

佳的预测模型。 后验知识的另一个例子是可能改变预测的未来价格的变化或市

场促销。

预测的关键是要找到一个能生成最佳预测的模型,而不是最

适合历史数据的模型。最能解释历史数据的模型不一定是最佳的

预测模型,原因主要有以下几点。

未来可能不能用与过去相同的概率来描述。过去和未

来可能与以任何概率分布的样本都不同。时间序列仅

仅是一个不会再现的历史记录。

模型可能涉及太多参数。过度拟合的模型可能会引入

不能延伸到未来的噪声或其他数据特性。

与拟合大量参数相关的误差可能会降低预测的准确

性,即使模型表示正确也是如此。

在以上的任一情况中,模型可能很适合历史数据,但预测仍

然欠佳,这说明模型的内在和外在正确性之间存在很大差异。

一个包含所有参数的预测模型不能很好地预测历史数据。

从上图我们能看出,一个包含所有参数的常规模型不能正确

地预测历史数据。我们希望选择一个能最大限度地降低预测误差

而不是历史数据误差的模型。

使用经典统计方法的预测模型

经典的或传统的统计学只选用“最佳的”模型,并且排斥所

有其他的模型,即便这些模型只比最佳模型稍差一点。不幸的是,

众所周知的过度拟合(一个模型为了解释历史数据而进行过分细

致地调整)问题通常会增加这种限制的复杂性,也会损坏模型的

预测能力。

与之相反,贝叶斯分析通过给每个模型分配概率将多个可比

较的高质量数据模型结合起来。除了提高了预测的准确性和健壮

性,该方法还极大地增强了系统的灵活性。

因果因子的选择是非常复杂的,因为候选因子的数目通常与

数据总长度相当。经典统计方法要么无法选择,要么丢弃了绝大

多数因果因子。如果用户根据经验或常识已经知道提出的候选因

子是关联的,情况则更糟。在此情况下,系统真正需要的是估计

因果因子的影响,而不是测试它们的关联性。

贝叶斯模型平均法是现代统计学中一个发展迅速的领域,它

以一种很自然的方式处理问题。它会尝试多个小的因果因子(重

叠的)子集,大体来说,如果某个因果因子被发现出现在多个子

集中,则认为它是有关联的因果因子,并且其参与的子集数目越

大关联性就越大。因此,可用历史数据的长度不会限制用户提出

的因果因子的数目。当然,用户应该避免引入先验的因果因子,

因为它在问题中与数列完全无关联,这只会减慢计算速度,有时

还会影响预测准确性。不过如果因子看起来似乎有某种关联,那

就应该将其包括进来,这样数据就可以“自己说话”。还有一点

值得一提,那就是相同的因果因子可以用于不同层次(例如城市

和地区)的建模;这些会分别进行估计并重组,以便在所有层次

上提高预测准确性。

使用贝叶斯方

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值