贝叶斯学派机器学习

最新推荐文章于 2024-05-13 21:44:50 发布

SpartanBin

最新推荐文章于 2024-05-13 21:44:50 发布

阅读量685

点赞数

分类专栏：机器学习文章标签：贝叶斯分类朴素贝叶斯最大似然估计

本文链接：https://blog.csdn.net/weixin_42095259/article/details/94575767

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

贝叶斯学派的机器学习方法有一些共同点，首先是都使用贝叶斯公式，其次它们的目的都是最大化后验函数，只是它们对后验函数的定义不相同。

朴素贝叶斯分类器：

朴素贝叶斯分类器是假设影响分类的属性（每个维度）是独立的，每个属性对分类结果的影响也是独立的。也就是说需要独立计算每个属性的后验概率，并将它们相乘作为该样本的后验概率。

在进行模型训练时，如果属性是离散值，可直接用属性类除以该属性的总数得到某一类中该属性的后验概率，举个例子，如果我们需要将苹果分为好苹果和坏苹果，苹果的颜色是其属性之一，假设好苹果中红苹果有9个，黄苹果有一个，这时候我们就可以得出，好苹果中红苹果的后验概率是9/10，黄苹果是1/10，同样假设坏苹果中红苹果有3个，黄苹果有7个，我们就可以得出坏苹果中红苹果的后验概率是3/10，黄苹果是7/10；如果属性是连续值，我们需要假设某一类中该属性的后验概率服从某种概率分布，通常使用正态分布，还是以分类苹果为例，这次以重量属性做参考，假设有10个好苹果，它们的质量是200g、210g、、、、280g、290g，有10个坏苹果，120g、130g、、、、200g、210g，因为我们假设好苹果和坏苹果都分别服从一个单独的正态分布~N(u, σ^2)，实际就是求该类的该属性值的均值和方差，因此好苹果~N(245, 825)，坏苹果~N(165, 825)。建议建一个数组储存以上的数据，这些数据就是模型训练后的结果。

将训练好的模型用于分类时，需要先分别计算每一类中该新样本的每一个属性的后验概率，再将其相乘，举个例子，现在有一个苹果是红苹果，重300g，那么该样本属于好苹果的后验概率是：

p1=(9/10)*(1/((2pi)^0.5*825^0.5)*exp(-(300-245)^2/(2*825)))

坏苹果：

p2=(3/10)*(1/((2pi)^0.5*825^0.5)*exp(-(300-165)^2/(2*825)))

显然p1>p2，又因为p（好苹果）=p（坏苹果）（在训练样本中都是10个），因此根据贝叶斯公式，该苹果属于好苹果的概率大于坏苹果，模型将该苹果分类为好苹果。注意如果属性过多，相乘容易下溢，应将后验概率转成log的形式。

最大似然估计：

最大似然法是假设样本属性的联合概率分布（概率密度函数）呈某一种概率分布，通常还是使用高斯分布（正态分布），还是需要计算每一类的后验概率，下式为将训练好的模型用于分类时，x属于k类的后验概率（在最大似然估计中，这个东西常被称为似然函数）：

注意有多少个类，就有多少个上式，是第k类n个维数的协方差矩阵，和朴素贝叶斯一样，在训练模型的阶段根据属于k类的训练样本计算后储存（PS：协方差可表示同量纲变量间的相关程度，0为不相关，大于0为正相关，小于0为负相关，，E为期望，相关系数，它去除了量纲），表示第k类每个属性的均值（和x一样是向量），同样在训练时计算并储存。计算概率同样根据贝叶斯公式：