PRML_频率与贝叶斯(一)

我们从数据中能得到以下信息:

总体信息。总体所属分布或者所属的分布族带来的信息;

样本信息。从总体中抽样得来的样本给我们提供的信息;

  • 以上两种信息进行的统计推断称为经典统计学。它的观点是把样本看成来自具有一定概率分布的总体。

先验信息。在抽样之前,对总体的基本认知,一般来自经验或历史资料。

  • 利用以上三种信息进行的统计推断称为贝叶斯统计。它的观点是:任一未知量 θ \theta θ都可看做一个随机变量,应用一个概率分布去描述对 θ \theta θ的未知状况。这个概率分布是在抽样前就有的关于 θ \theta θ的先验信息的概率陈述。这个分布被称之为先验(Prior)分布。

关于未知量 θ \theta θ的一些讨论:

  1. 依赖于参数 θ \theta θ的密度函数在经典统计中记为 p ( x ; θ ) p(x;\theta) p(x;θ) p θ ( x ) p_{\theta}(x) pθ(x),它表示在参数空间 Θ = { θ } \Theta=\{\theta\} Θ={θ}中不同的 θ \theta θ对应不同的分布。可以在贝叶斯统计中记为 p ( x ∣ θ ) p(x|\theta) p(xθ),他表示在随机变量 θ \theta θ给定某个值时,总体指标 X X X的条件分布。
  2. 根据参数 θ \theta θ的先验信息确定先验分布 π ( θ ) \pi(\theta) π(θ)
  3. 从贝叶斯的观点看,样本 x = ( x 1 , ⋅ ⋅ ⋅ X n , ⋅ ⋅ ⋅ ) x=(x_1 ,···X_n,···) x=(x1,Xn,)的产生分两步进行。首先设想从先验分布 π ( θ ) \pi(\theta) π(θ)产生一个样本 θ \theta θ,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布 p ( x ∣ θ ) p(x|\theta) p(xθ)产生一个样本 x = ( x 1 , ⋅ ⋅ ⋅ x n , ⋅ ⋅ ⋅ ) x=(x_1,···x_n,···) x=(x1,xn,),这个样本是具体的,人们能看得到的,此样本 x x x发生的概率是与如下联合密函数成正比。 p ( x ∣ θ i ) = ∏ i = 1 n p ( x i ∣ θ i ) p(x|\theta^i)=\prod_{i=1}^n{p(x_i|\theta^i)} p(xθi)=i=1np(xiθi)这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为 L ( θ i ) L(\theta^i) L(θi)。频率学派和贝叶斯学派都承认似然函数,二派认位:在有了样本观察值 x = ( x 1 , ⋅ ⋅ ⋅ x n , ⋅ ⋅ ⋅ ) x=(x_1,···x_n,···) x=(x1,xn,)后,总体和样本所含 θ \theta θ的信息都被包含在似然函数 L ( θ i ) L(\theta^i) L(θi)之中,可在使用似然函数做统计推断时,两派还是有差异的。
  4. 由于 θ \theta θ是设想出来的,他仍然是未知的,他是按先验分布 π ( θ ) \pi(\theta) π(θ)而产生的,要把先验信息进行综合,不能只考虑 θ \theta θ,而应对 θ \theta θ的一切可能加以考虑。故要用 π ( θ ) \pi(\theta) π(θ)参与进一步综合。这样一来,样本 x x x和参数 θ \theta θ的联合分布 h ( x , θ ) = p ( x ∣ θ ) π ( θ ) h(x,\theta)=p(x|\theta)\pi(\theta) h(x,θ)=p(xθ)π(θ)把三种可用的信息都综合进去了。
  5. 我们的任务是要对未知数 θ \theta θ做出统计推断。在没有样本信息时,人们只能根据先验分布对 θ \theta θ做出判断。在有样本观察值 x = ( x 1 , ⋅ ⋅ ⋅ x n , ⋅ ⋅ ⋅ ) x=(x_1,···x_n,···) x=(x1,xn,)后,我们应该依据 h ( x , θ ) h(x,\theta) h(x,θ) θ \theta θ作出推断。为此我们需要把 h ( x , θ ) h(x,\theta) h(x,θ)作如下分解: h ( x , θ ) = π ( θ ∣ x ) m ( x ) h(x,\theta)=\pi(\theta|x)m(x) h(x,θ)=π(θx)m(x)其中 m ( x ) m(x) m(x) x x x的边缘密度函数。 m ( x ) = ∫ θ h ( x , ∣ θ ) d θ = ∫ θ p ( x ∣ θ ) π ( θ ) m(x)=\int_\theta{h(x,|\theta)d\theta}=\int_\theta{p(x|\theta)\pi(\theta)} m(x)=θh(x,θ)dθ=θp(xθ)π(θ)他与 θ \theta θ无关,或者说是, m ( x ) m(x) m(x)中不含 θ \theta θ的任何信息。因此能用来对 θ \theta θ做出推断的仅是条件分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)。他的计算公式为 π ( θ ∣ x ) = h ( x ∣ θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ θ p ( x ∣ θ ) π ( θ ) d θ \pi(\theta|x)=\frac{h(x|\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_\theta{p(x|\theta)\pi(\theta)}d\theta} π(θx)=m(x)h(xθ)=θp(xθ)π(θ)dθp(xθ)π(θ),这就是贝叶斯公式的密度函数形式。这个在样本 x x x给定下, θ \theta θ的条件分布被称为 θ \theta θ的后验分布。他是集中了总体、样本和先验三种信息中包含有 θ \theta θ的一切信息,而又是排除一切与 θ \theta θ无关的信息之后所得到的结果。故基于后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx) θ \theta θ进行统计推断是更为有效,也是合理的。
  6. θ \theta θ是离散随机变量时,先验分布可用先验分布列 p i ( θ i ) , i = 1 , 2 ⋅ ⋅ ⋅ \\pi(\theta_i),i=1,2··· pi(θi),i=1,2,表示。这时后验分布也是离散形式。 π ( θ i ∣ x ) = p ( x ∣ θ i ) π ( θ i ) ∑ i p ( x ∣ θ i ) π ( θ i ) , i = 1 , 2 , ⋅ ⋅ ⋅ \pi(\theta_i|x)=\frac{p(x|\theta_i)\pi(\theta_i)}{\sum_i{p(x|\theta_i)\pi(\theta_i)}},i=1,2,··· π(θix)=ip(xθi)π(θi)p(xθi)π(θi),i=1,2,假如总体 X X X也是离散的,那么只要把密度安徽省农户 p ( x ∣ θ ) p(x|\theta) p(xθ)看作是概率函数 P ( X = x ∣ θ ) P(X=x|\theta) P(X=xθ)即可。

一般来说,先验分布 π ( θ ) \pi(\theta) π(θ)是反映人们在抽样分布前对 θ \theta θ的认识,后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)是反映人们在抽样后 θ \theta θ的认识。之间的差异是由于样本 x x x出现后人们对 θ \theta θ认识的一种调整。所以后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)可以看作是人们用总体信息和样本信息对先验分布 π ( θ ) \pi(\theta) π(θ)做调整的结果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PRML(模式识别与机器学习)算法的Matlab实现是指使用Matlab编程语言实现PRML书中提到的各种算法和模型。PRML算法是一种广义的模型学习算法,可以用于模式识别、机器学习和数据挖掘等问题。 PRML算法的Matlab实现可以包括以下内容: 1. 数据预处理:对原始数据进行清洗、归一化、特征提取等预处理操作,为后续模型训练做准备。 2. 模型选择:根据具体问题选择适当的模型,包括朴素贝叶斯、支持向量机、决策树、聚类分析等算法。 3. 参数估计:使用PRML中介绍的最大似然估计、贝叶斯估计等方法,通过训练数据得到模型的参数估计。 4. 模型训练:使用已估计得到的模型参数,对训练数据进行训练,得到最优的模型。 5. 模型评估:对训练得到的模型进行评估,使用评价指标如准确率、召回率、F1值等来判断模型性能。 6. 模型预测:使用训练得到的模型对新的未知数据进行预测,得到相应的结果。 在Matlab中,可以使用相关的函数和工具箱来实现PRML算法,例如Statistics and Machine Learning Toolbox、Pattern Recognition Toolbox等。这些工具箱提供了各种算法和模型的实现函数,也提供了数据处理、评估和预测的函数,方便开发者实现PRML算法。 实现PRML算法的Matlab代码需要具备一定的编程能力和数学基础,了解相关的算法原理和数学推导。可以通过阅读PRML书籍中的算法推导、Matlab官方文档和相关学术论文等资源,来学习和理解PRML算法的Matlab实现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值