贝叶斯理论与函数拟合,最大似然与损失函数

最初的疑惑

在李航老师的统计机器学习当中,提到了机器学习的目标或者说求解的方向,这个目标分为两种形式:

  • 机器学习是要去学习一个目标函数 f f f或者说一个假设 h h h,这个函数 f f f或者假设 h h h可以正确分类数据或者正确拟合数据
  • 机器学习是要去学习一个概率分布 P ( h ∣ D ) P(h|D) P(hD),这个概率表达式的含义是在给定数据集 D D D上,假设 h h h是正确的概率是什么多少,我们只需要选取正确率最高的假设就可以,也就是求 m a x P ( h ∣ D ) maxP(h|D) maxP(hD),得到假设 h h h

所以为什么机器学习模型的目标会有两种表达形式,这两种形式又有什么联系呢?

目标函数 f f f与符合概率 P ( h ∣ D ) P(h|D) P(hD)最大的假设 h h h的现实世界的含义是什么?

对于回归问题来说,两种表述现实世界的含义都可以通过下面的图片表示,这个目标函数 f f f和假设 h h h都表示为一个拟合曲线。在这里假设 h h h可以理解为在某个模型中,所有参数 θ \theta θ的取值,所以把 h h h放入的模型当中,就能生成一个函数,一条曲线。

现在,我们先给前面提到的两个目标换一下名字,来表达更一般的问题

  • 目标是拟合一个函数,那么我们就称它为函数拟合的方式,求解拟合问题,一般是通过损失函数的方式
  • 目标如果是学习一个概率分布,找到最可能的假设,我们把它叫做贝叶斯的方式,求解贝叶斯,一般是通过“最大似然”的方式。

这样,我们的问题就变成了一个更加一般的问题,贝叶斯和函数拟合是什么关系?

贝叶斯和函数拟合是如何关联的?

首先给出结论:

贝叶斯的优化目标–最大似然 和函数拟合的优化目标–最小损失 在回归和分类问题上表达式完全一致的,并且优化风向也是一致的。

这里的联系虽然加了限制条件:回归和分类问题,但是这个限制其实是十分宽松的,因为回归和分类问题已经涵盖所有监督式机器学习,所以这个结论其实是一个一般性的结论。

同时,这里还要注意一点, P ( h ∣ D ) P(h|D) P(hD)为后验分布,但是如果我们假设先验分布 P ( h ) P(h) P(h),也就是每个假设 h h h出现的概率是相同的,我们可以得到 P ( h ∣ D ) ∝ P ( D ∣ h ) P(h|D) \propto P(D|h) P(hD)P(Dh),这个 P ( D ∣ h ) P(D|h) P(Dh)就是似然(likelihood)。所以找最大的 P ( h ∣ D ) P(h|D) P(hD)的问题就变成了

最大似然和损失函数在回归问题上是如何关联的?

首先我们先回顾一下回归问题的基本形式:

我们希望找到一个 W W W ,且有函数 f f f
f ( x ⃗ ) = ∑ i = 1 n w i ∗ ϕ ( x i ) + w 0 f(\vec{x})=\sum_{i=1}^{n} w_i * \phi(x_i) + w_0 f(x )=i=1nwiϕ(xi)+w0
使预测的 f ( x ⃗ ) f(\vec{x}) f(x )能够最够靠近真实值 y y y

如果用函数拟合的方式,我们会把损失函数定义为 M S E MSE MSE,我们需要做的就是求解

a r g w ⃗ m i n ∑ i = 0 n ( y i − f ( x i ⃗ ) ) 2 arg_{\vec{w}} min \sum_{i=0}^n (y_i-f(\vec{x_i}))^2 argw mini=0n(yif(xi ))2

下面我们要用最大似然表示这个问题,并说明最大似然的形式和损失函数的形式是完全一致的。

我们首先假设真实的 y y y f ( x ⃗ ) f(\vec{x}) f(x )的关系为
y i = f ( x i ⃗ ) + ε y_i = f(\vec{x_i}) + \varepsilon yi=f(xi )+ε
ε \varepsilon ε是预测和真实之间的误差,或者噪音。这个公式表示每个训练样例的值是收到一个噪音干扰的,我们假设这个噪音是从均值为0,方差为 σ \sigma σ的高斯分布中采样出来的,且当前 f ( x i ⃗ ) f(\vec{x_i}) f(xi )的假设为 h h h。所以我们可以得到
P ( y i − f

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
贝叶斯理论是一种用来描述不确定性问题的概率理论方法。在贝叶斯理论中,参数被认为是一个随机变量,而不是一个固定值。参数的取值在先验分布中被指定。在观察到新数据之后,参数的后验分布被计算。这个后验分布是新数据和先验信息的加权和,权重是数据的似然函数和先验分布的密度。这种方法被广泛应用于数据分析、模型选择、参数估计等问题。 在 MATLAB 中,贝叶斯方法可以用于分布拟合。分布拟合是一种将数据与概率分布进行比较的方法,通常用于检验一组数据是否符合某种分布。MATLAB 中有两种方法进行分布拟合最大似然估计和贝叶斯方法。 最大似然估计是基于已知数据的似然函数,寻找使似然函数最大的参数估计值。该方法适用于样本量较大的情况下,具有较高的计算效率和统计效率。但是,它无法利用先验信息,并且在样本量较小和似然函数多峰的情况下可能会失效。 贝叶斯方法则可以更好地利用先验信息。它可以在数据样本量较小的情况下有效地进行分布拟合,并且可以处理高度不确定的分布。在 MATLAB 中,贝叶斯方法可以用 bayesfit 函数实现。bayesfit 函数使用贝叶斯方法进行分布拟合,同时可以使用先验函数进行参数估计。它可以输出后验分布和估计的置信区间,这对于应对不确定性问题非常有用。 总之,MATLAB 中的贝叶斯方法可以有效地进行分布拟合,尤其是在数据样本量较小的情况下。在分布拟合中,应该根据具体情况选择最大似然估计或贝叶斯方法,以获得更准确的估计结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值