贝叶斯1

最新推荐文章于 2024-06-30 17:30:00 发布

kasdlj

最新推荐文章于 2024-06-30 17:30:00 发布

阅读量751

点赞数 1

分类专栏：机器学习文章标签：机器学习贝叶斯极大似然估计判别模型生成模型

本文链接：https://blog.csdn.net/lvhao92/article/details/50775860

版权

机器学习专栏收录该内容

31 篇文章 1 订阅

订阅专栏

最早接触贝叶斯是考研的时候，第一感觉并没有那么难。然而研一又接触到它时，又是什么先验概率和后验概率。彻底被它懵逼了。。。现在想想，为自己当时的理解能力感到捉急，估计是掉到字眼里去了。机器学习，5分看，5分猜。扣字的去理解，准没戏。每个人猜的又有好有坏，理解的有深有浅，看个人造化。

总述：这是一个根据现象猜本质的过程。即看到一个人的身高猜男女，看到一条鱼的轻重猜品种。

反映到数学的表达式就是如下：

(1)

P(C)就是传说中的“先验”概率，比如南邮的一个班上男多女少，P(男)>P(女)。

P(X|C)，就是P(身高/男)就是是个男生那么他的身高满足一个什么样的分布，当然它有很好听的名字，叫做“条件”概率，也叫做“似然”（兄弟们记不记得极大似然估计？）。所以通过例子可以大概知道了，我这儿的C就是类别（男女），而X就是现象（身高）。

所以，回头看之前那句话，贝叶斯分布是一个根据现象猜本质的过程，我们的例子也是一个根据身高猜男女的过程。等等？根据身高猜性别，不就是P(C|X)嘛？

下面说P(C|X)，仔细想想，在这个例子中就是P(性别/身高)，举个例子，黑夜中，你遇到一个人，除了身高，你对他（她）一无所知，根据伟大的贝叶斯，你算出了P(性别=男/身高=170)>p(性别=女/身高=170)，那你猜这人是男是女？当然猜是男的。而这个P(C|X)就是伟大的“后验”概率。

上面式子中的所有元素都提到了，除了P(X)，而P(X)在贝叶斯中显得并不是那么的重要，它叫做用于归一化的“证据”因子，对给定样本X，证据因子P(X)与类标记无关。所以这里就可以华丽的无视他的存在了。

那我们的根据现象猜本质的过程，其实也可以叫做根据先验概率和条件概率求后验概率的过程，是的，没错！

可是，如何才能很好的求出这个后验概率呢？主要有两种策略：

其一，给定x，通过直接建模P(C|X)来预测c，美曰“判别式模型”(discriminative models)

其二，先对联合概率分布P(X,C)建模，然后再由此获得P(C|X)，美曰“生成式模型”(generative models)

大家熟知的决策树啦，BP神经网络啦，SVM等等，都是属于判别式模型，而贝叶斯，因为有P(X,C)的存在，所以就是生成式模型。

要求P(C|X)必先求得P(X|C)，即一个类别中的现象分布，男生中的身高分布。通过什么来求得分布？通过样本训练来求得分布。什么东西实质上在改变分布？参数的大小在改变着分布。因此，我们的概率模型训练的过程实际上就是参数估计(parameter estimation)的过程。说句题外话：

两个学派分别提供了两种思路：

一群人认为参数虽然无知，但却是客观存在的固定值，因此可以通过优化似然函数等准则来确定参数值，他们叫做频率主义学派(Frequentist)

另一群人认为参数是未观察到的随机变量，其本身也有分布，因此，可假设参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布，他们叫做贝叶斯学派(Bayesian)

虽然今天主要介绍的是贝叶斯，可是我们求参数的时候并没有沿用贝叶斯学派的做法，而是源自频率派的极大似然估计，所以明白为什么前面提到的P(X|C)也叫作似然概率了吗？贝叶斯的这种先验后验分布的思想我们拿来判断物品的类别就好了，小小的参数估计，还是简单点，认为他就是一个固定值吧。

下面开始介绍极大似然估计(Maximum Likelihood Estimation，MLE)，即为根据诸多该类训练样本的现象分布，来近似估计这个类别的现象分布，不懂是嘛？就是说我知道10个男生的身高，我根据这10个男生的身高去估计男生这个类别它的身高分布，而这个身高分布肯定是由各种参数来确定的。比如，如果它是正态分布，那么它的均值和方差就是参数。就是我们需要根据10个男生的身高去估计的东西。

我们是可以根据这样的式子去估计参数的，c是一个类（男生），Dc是表示c类的训练集（10个男生的身高），x就是其中的一个男生，就是乱七八糟的参数。

我们需要求最大化上面式子的的值，也就是argmax，当然，连乘会造成下溢，所以通常使用对数似然

(3)

此时参数的极大似然估计就是 (4)

比如，我们会根据10个男生的分布发现，概率密度函数P(X|C)满足的是正态分布，那么它的均值和方差的极大似然估计就是

(5)

(6)

很显然，此处的均值和方差是非常符合逻辑的，如果让你去蒙肯定也是这么蒙的，但是这个值并不是蒙的，而是算出来的，就是先假设男生的身高分布符合正态分布，写出正态分布的公式，再将其带入公式(4)，求这个的最大值，分别对这个式子对均值和方差这两个参数去求偏导，另偏导为零，就能得到上述的解了，纯数学计算，不写了，懒。

注意，我上面是先假设了男生的身高符合正态分布，然后巴拉巴拉的才去进行估计参数，所以，极大似然估计一定是由两个步骤构成，1，假设概率分布形式（正态分布等）2，参数估计。所以上面说了那么多其实都只是说的是参数估计。而很多时候我们假设的概率分布也是非常的关键的，它的选择必须要符合真实的数据分布，所以它的选择并不是一味的全都是正态分布，要根据具体的应用背景来。

(by the way,为什么不能像word一样的搞个公式编辑器？本来我智商就不够用，公式编辑搞的那么复杂的谁会啊！！）