我们现在讨论的点估计问题,无论你用矩估计也好,用极大似然估计也好或其他方法也好,在我们心目中,未知参数 θ θ 简单地是一个未知数,在抽取样本之前,我们对 θ θ 没有任何了解,所有的信息全来自样本。
贝叶斯学派则不然,它的出发点是:在进行抽样之前,我们已对 θ θ 有一定的知识,叫做先验知识。这里“先验”的意思并非先验论,而只是表示这种知识是“在实验之前”就有了的,也有人把它叫做验前知识,即“在实验之前”的意思。
贝叶斯学派进一步要求:这种先验知识必须用 θ θ 的某种概率分布表达出来,这个概率分布就叫做 θ θ 的“先验分布”或“验前分布”。这个分布总结了我们在实验之前对未知参数 θ θ 的知识。
举一个例子,设某工厂每日生产一大批某种产品,我们想要估计当日的废品率 θ θ 。该厂以前已生产过很多批次产品,如果过去的检验有记录在,则它确实提供了关于废品率 θ θ 的一种有用信息,据此可以画出 θ θ 的密度曲线。
图中, h(θ) h ( θ ) 表示 θ θ 的密度函数 (0≤θ≤1) ( 0 ≤ θ ≤ 1 ) 。图(a)表示一个较好的情况: h(θ) h ( θ ) 在 θ=0 θ = 0 附近很大,而当 θ θ 增加时下降很快。这表示该厂以往的废品率通常都很低。图(b)则表示一个不大好的情况:比较大的废品率出现的比率相当高。容易理解:这种关于 θ θ 的历史知识(即先验知识),在当前估计废品率 θ θ 时应当适当地加以使用,而不应弃之不顾。这种思想与我们日常处事的习惯符合:当我们面临一个问题时,除了当前的情况外,往往还要注意以往的先例和经验。
那么问题就来了:如果这个工厂以往没有记录,或甚至是一个新开工的工厂,该怎么办?贝叶斯统计有一个基本要求:你必须设法去定出这样一个 h(θ) h ( θ ) ,甚至处于你自己的主管认识也可以,这是问题中一个必备的要素。正是在这一点上,贝叶斯统计遭到不少的反对和批评。
现在我们转到下一个问题:已定下了先验密度之后,怎样去得出参数 θ θ 的估计?
设总体样本有概率密度 f(X,θ) f ( X , θ ) (或概率函数,若总体分布为离散的),从这个总体中抽样本 X1,⋯,Xn X 1 , ⋯ , X n ,则这组样本的密度为 f(X1,θ)⋯f(Xn,θ) f ( X 1 , θ ) ⋯ f ( X n , θ ) 。它可视为在给定 θ θ 值时, (X1,⋯,Xn) ( X 1 , ⋯ , X n ) 的密度。那么 (θ,X1,⋯