朴素贝叶斯算法

最新推荐文章于 2024-05-23 15:43:21 发布

焸66

最新推荐文章于 2024-05-23 15:43:21 发布

阅读量798

点赞数 20

文章标签：算法概率论机器学习

本文链接：https://blog.csdn.net/qq_64051333/article/details/134603695

版权

贝叶斯公式

贝叶斯公式是概率论中的一条重要定理，它用于计算条件概率。贝叶斯公式的表达式如下：

P(A|B) = P(B|A) * P(A) / P(B)

其中，P(A|B)表示在事件B发生的条件下，事件A发生的概率；P(B|A)表示在事件A发生的条件下，事件B发生的概率；P(A)和P(B)分别表示事件A和事件B独立发生的概率。

贝叶斯公式可以帮助我们根据已知信息，利用新的观察结果来更新对事件的概率估计。它在统计学、机器学习等领域有广泛应用，例如在垃圾邮件过滤、医学诊断等问题中，贝叶斯公式可以用来进行概率推断和决策-making。

贝叶斯法则的举例分析

可以将贝叶斯法则的分析思路表达如下。

挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型，但B知道，如果A属于高阻挠成本类型，B进入市场时A进行阻挠的概率是20%（此时A为了保持垄断带来的高利润，不计成本地拼命阻挠）；如果A属于低阻挠成本类型，B进入市场时A进行阻挠的概率是100%。

博弈开始时，B认为A属于高阻挠成本企业的概率为70%，因此，B估计自己在进入市场时，受到A阻挠的概率为：

0.7×0.2+0.3×1=0.44

0.44是在B给定A所属类型的先验概率下，A可能采取阻挠行为的概率。

当B进入市场时，A确实进行阻挠。使用贝叶斯法则，根据阻挠这一可以观察到的行为，B认为A属于高阻挠成本企业的概率变成A属于高成本企业的概率=0.7（A属于高成本企业的先验概率）×0.2（高成本企业对新进入市场的企业进行阻挠的概率）÷0.44=0.32

根据这一新的概率，B估计自己在进入市场时，受到A阻挠的概率为：

0.32×0.2+0.68×1=0.744

如果B再一次进入市场时，A又进行了阻挠。使用贝叶斯法则，根据再次阻挠这一可观察到的行为，B认为A属于高阻挠成本企业的概率变成。

A属于高成本企业的概率=0.32（A属于高成本企业的先验概率）×0.2（高成本企业对新进入市场的企业进行阻挠的概率）÷0.744=0.086

这样，根据A一次又一次的阻挠行为，B对A所属类型的判断逐步发生变化，越来越倾向于将A判断为低阻挠成本企业了。

以上例子表明，在不完全信息动态博弈中，参与人所采取的行为具有传递信息的作用。尽管A企业有可能是高成本企业，但A企业连续进行的市场进入阻挠，给B企业以A企业是低阻挠成本企业的印象，从而使得B企业停止了进入地市场的行动。

应该指出的是，传递信息的行为是需要成本的。假如这种行为没有成本，谁都可以效仿，那么，这种行为就达不到传递信息的目的。只有在行为需要相当大的成本，因而别人不敢轻易效仿时，这种行为才能起到传递信息的作用。

朴素贝叶斯分类器

朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的简单概率分类算法。它假设每个特征与其他特征相互独立，且每个特征同等重要，因此被称为“朴素”。

朴素贝叶斯分类器的训练过程包括两个步骤：

计算每个类别出现的先验概率P(Ci)，即在没有任何特征信息的情况下，观察到该类别的概率。
对于每个特征，计算其在每个类别下的条件概率P(Xj|Ci)，即在已知类别的情况下，观察到该特征的概率。

在进行分类时，朴素贝叶斯分类器利用贝叶斯定理求出后验概率P(Ci|X)，即在给定观察数据X的情况下，观察到某个类别的概率。具体计算方法如下：

P(Ci|X) = P(Ci) * P(X|Ci) / P(X)

其中，P(Ci)是先验概率，P(X|Ci)是条件概率，P(X)是归一化因子，用于确保所有后验概率之和为1。

朴素贝叶斯分类器在文本分类、垃圾邮件过滤、情感分析等领域有广泛应用。由于其简单性和高效性，它是许多其他机器学习算法的基础组件之一。

在高斯朴素贝叶斯中，每个特征都是连续的，并且都呈高斯分布。高斯分布又称为正态分布。图画出来以后像一个倒挂的钟，以均值为轴对称，如下图所示：

尽管他们貌似过度简化了假设，朴素贝叶斯分类器在真实世界中的应用还是很不错的，其中著名的文件分类和垃圾邮件过滤就是例子。它只要少量的训练数据就能估计出关键的参数。
与其他的复杂方法相比，朴素贝叶斯学习和分类的速度非常快。类条件特征分布的波动意思就是每个分布可以独立地被一个尺寸分布估计出来。这就减轻了维度带来的问题。

朴素贝叶斯分类器-例

拉普拉斯修正

拉普拉斯修正（Laplace smoothing）是一种用于解决朴素贝叶斯分类器中概率为零的问题的技术。在朴素贝叶斯分类器中，如果某个特征在给定类别下没有出现过，那么根据条件概率的定义，相应的条件概率就会变成零，这将导致整个后验概率的计算结果也为零，从而影响分类器的性能。

拉普拉斯修正通过对概率分布进行平滑处理，以解决这个问题。其基本思想是对所有特征的计数值加上一个小的常数，以确保每个特征在每个类别下的概率都不会变成零。具体而言，在计算条件概率时，对于每个特征的计数值都加上一个正数k，在分母部分则加上k乘以特征可能取值的总数，这样就可以避免概率为零的情况。

拉普拉斯修正的公式如下：

P(Xj|Ci) = (N(Xj, Ci) + k) / (N(Ci) + k * V)

其中，N(Xj, Ci)表示在类别Ci下特征Xj出现的次数，N(Ci)表示类别Ci的样本总数，V表示特征Xj可能取值的总数（即特征空间的维度），k为平滑参数。

拉普拉斯修正可以提高朴素贝叶斯分类器的稳健性和泛化能力，使其在面对新的、未曾见过的特征时也能有较好的表现。

防溢出策略

条件概率乘法计算过程中，因子一般较小（均是小于1的实数）。当属性数量增多时候，会导致累乘结果下溢出的现象。在代数中有ln(a*b) = ln(a)+ln(b)，因此可以把条件概率累乘转化成对数累加。分类结果仅需对比概率的对数累加法运算后的数值，以确定划分的类别。

文本/垃圾邮件分类

文本分类是一种将文本数据分为不同类别的任务，常见的应用包括垃圾邮件分类、情感分析、新闻分类、评论分类等。其中，垃圾邮件分类是文本分类中的一个典型应用，其目标是将邮件分为垃圾邮件和正常邮件两类。

朴素贝叶斯分类器是垃圾邮件分类中常用的算法之一。在训练阶段，朴素贝叶斯分类器会从已知的样本中学习不同特征对垃圾邮件和正常邮件的区分度，例如邮件中出现的单词、出现的URL、邮件标题长度等等。在分类阶段，分类器会根据这些特征的出现情况计算出邮件属于垃圾邮件或正常邮件的概率，并将其分为相应的类别。具体而言，朴素贝叶斯分类器会利用贝叶斯公式计算后验概率，即：

P(Spam|X) = P(Spam) * P(X|Spam) / P(X)

其中，P(Spam)和P(Ham)分别表示垃圾邮件和正常邮件的先验概率，P(X|Spam)和P(X|Ham)分别表示在垃圾邮件和正常邮件中出现特征X的条件概率，P(X)为归一化因子。

朴素贝叶斯分类器的优点在于简单易实现、计算效率高、对大规模数据集适用性强等。然而，由于朴素贝叶斯分类器假设各个特征之间相互独立，因此对于一些依赖于多个特征的任务，其分类效果可能不如其他算法。

总结

朴素贝叶斯算法是一种基于贝叶斯定理和特征独立假设的分类算法。它假设每个特征与其他特征相互独立，并使用贝叶斯定理计算每个特征对分类结果的影响。

具体来说，在朴素贝叶斯算法中，我们假设有n个特征x1, x2, ..., xn，这些特征可以用于预测一个样本的分类结果y。假设每个特征xi都是独立的，那么根据贝叶斯定理，我们可以计算出样本属于每个分类的概率，然后选择概率最大的分类作为最终的预测结果。

具体地，对于一个新样本x，我们需要计算出它属于每个分类y的概率，即P(y|x)。由于特征独立假设，我们可以将P(x|y)表示为各个特征的条件概率的乘积，即：

P(x|y) = P(x1|y) * P(x2|y) * ... * P(xn|y)

接着，我们可以使用贝叶斯定理，计算出样本属于每个分类y的后验概率P(y|x)，即：

P(y|x) = P(y) * P(x|y) / P(x)

其中，P(y)表示类别y的先验概率，P(x)表示样本x的先验概率。由于P(x)对于所有分类都是相同的，因此我们只需要比较分子的大小即可。

在朴素贝叶斯算法中，我们需要根据训练数据估计出每个特征在各个分类下的条件概率。具体来说，对于一个特征xi和分类y，我们需要计算出它在分类y下的条件概率P(xi|y)，例如，一个词在垃圾邮件中出现的概率、一个URL在正常邮件中出现的概率等等。这些概率可以通过统计训练数据中各个特征在各个分类下的出现次数来估计得到。

在预测阶段，我们需要根据训练好的模型计算出样本属于各个分类的后验概率，并选择概率最大的分类作为最终的预测结果。

总体上来说，朴素贝叶斯算法是一种简单而有效的分类算法，尤其适合处理文本等离散数据。但是，由于它假设各个特征之间相互独立，因此对于某些依赖于多个特征的分类任务，其精度可能会受到影响。

朴素贝叶斯算法作为一种常用的分类算法，在实际应用中具有一些优点和缺点。

优点：