机器学习(4)——贝叶斯学习(一)

前言

概率论只不过是把常识用数学公式表达了出来。 —— 拉普拉斯

在开始本章之前,请大家思考一个问题——关于机器学习,我们的目标是什么?人们想要我们进行那种类型的学习?人们希望我们执行的学习理论?

一: 基础知识

1.1 逆概

贝叶斯方法源于托马斯·贝叶斯生前解决的一个“逆概”问题写的一篇文章。在写这篇文章的时候,人们已经能够计算“正向概率”,而“逆概”是以方向角度来思考这个问题,即由答案推条件。一个典型的例子如下:一个袋子中有N个白球,M个黑球,这样我们就可以得出摸到黑球或者白球的概率。而逆概则是:在我们不知道袋子中具体情况的前提下,我们从袋子中摸N个球,观察取出的结果,那么我们可以对袋子中做出怎样的推测?

1.2 最佳假设

思考一下其它的机器学习算法:神经网络、决策树、支持向量机等。在这里我们可以将他们做的事简单的概括为一句话:他们都是根据给定的一些数据和领域知识找出我们能够得到的最佳(最可能)假设——假设即使我们给定数据所反映的事物本质的推测,这个在第二节中我有进一步的说明。

1.3 贝叶斯方法

贝叶斯是机器学习的核心方法之一,所有需要概率预测的地方都可以见到贝叶斯方法的影子。这背后的深层次的原因在于:现实世界本身的不确定性,由于人类的观察能力是有局限性的,我们日常所观察的只是事物表面上的结果(借鉴的例子:如果我们能够直接观察到电子的运行,还需要对原子模型争吵不休吗?),但是这个结果往往并不是我们想要的,我们想要了解的是这个事物的本质,这个时候,就需要我们提供一个关于这个事物本质的假设(hypothesis,通俗来讲就是猜测、猜想),这个猜想本身是不确定的,而且会存在多种假设都能满足条件(即由我们看到的事物表面上的结果直接或间接产生出来的限定因素)。

最后总结为两点我们需要做的事:

  1. 算出各种不同猜测的可能性大小。即:计算特定猜测的后验概率,对于连续的猜测空间则是计算概率密度函数
  2. 算出最靠谱的猜测是什么。即:所谓的模型比较,这里说一点的就是模型比较不关注先验概率的话就是最大似然方法。

1.4 贝叶斯公式

P(Bi|A)=P(Bi)P(A|Bi)ni=1P(Bj)P(A|Bj)

公式的解释是:

1.5 贝叶斯法则

贝叶斯法则(Bayes theorem)是贝叶斯的统计学中的一个基本工具,它是基于假设 h 和数据 D 的一个数学公式(如下所示)。

P(h|D)=P(D|h)P(h)P(D)

假设机器学习的数据集 D={ (xi,di)}xi d_i 。我们的假设一般指的就是 di 。接下来我们会说明公式中每一项的含义。

  • P(h|D) 指在数据D的基础上,假设h的发生概率。
  • P(D|h) 指给定假设时观测到数据的概率。
  • P(h) 是假设的先验概率。
  • P(D) 是数据的先验概率。

这里要重点说明下假设的先验概率——事实上这个就是我们的领域知识(Domain Knowledge)。比如一个根据数据集预测一个人是否患癌症的场景,一个医生根据经验说:一个人患癌症的概率为0.03%(最好为零),那么我们可以得到这样的一个假设—— P()=0.03% ,这个就是先验概率。

如果我们将贝叶斯法则运用到机器学习上,那么我们就需要寻找最优假设。那么问题就转换成如下的结果:

argmaxP(h|D)=P(D|h)P(h)P(D)

接下来我们思考另外一个问题,怎样能够提高指定数据下某一个假设的概率。

  • 当先验概率—— P(h) 的值更高的时候。即我们提高了我们了我们假设的精准度,是假设本身的概率更高。
  • 当我们着打一个能够更好标记数据的假设——即 P(D|h) 的概率增高。
  • 当数据下降的时候——即 P(D)
  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值