机器学习：朴素贝叶斯算法的原理及应用场景、优缺点简单介绍

rubyw

于 2024-10-09 14:37:00 发布

阅读量1.5k

点赞数 5

分类专栏： # 概念及理论文章标签：机器学习算法概率论数据分析

本文链接：https://blog.csdn.net/rubyw/article/details/142781925

版权

概念及理论专栏收录该内容

43 篇文章

订阅专栏

一、朴素贝叶斯算法概述

朴素贝叶斯是一种基于贝叶斯定理的简单概率分类算法。它假设特征之间相互独立，这是其“朴素”的由来。

二、贝叶斯定理基础

贝叶斯定理是整个算法的核心，其公式如下：

$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

在分类问题中，我们设 $A$ 为类别变量（如垃圾邮件和非垃圾邮件类别）， $B$ 为特征向量（如邮件中的单词出现情况）。

三、算法原理细节

先验概率计算
- 对于训练数据集中的每个类别 $y_i$ ，先验概率 $P(y_i)$ 的计算如下：
$P(y_i)=\frac{N_{y_i}}{N}$
其中 $N_{y_i}$ 是属于类别 $y_i$ 的样本数量， $N$ 是总的样本数量。例如，若有100封邮件，其中60封是非垃圾邮件，那么非垃圾邮件的先验概率 $=非垃圾邮件)=\frac{60}{100}=0.6$ 。
条件概率计算
- 对于离散型特征 $x_j$ ，在类别 $y_i$ 下的条件概率 $P(x_j|y_i)$ 计算公式为：
$P(x_j|y_i)=\frac{N_{y_i,x_j}}{N_{y_i}}$
这里 $N_{y_i,x_j}$ 是在类别 $y_i$ 中特征 $x_j$ 出现的次数， $N_{y_i}$ 是类别 $y_i$ 中的样本数量。比如在非垃圾邮件类别中，单词“优惠”出现了10次，非垃圾邮件有60封，那么 $=非垃圾邮件)=\frac{10}{60}=\frac{1}{6}$ 。
- 对于连续型特征，通常假设其服从高斯分布（正态分布）。此时，条件概率计算公式为：
$P(x_j|y_i)=\frac{1}{\sqrt{2\pi\sigma_{y_i,j}^2}}\exp\left(-\frac{(x_j - \mu_{y_i,j})^2}{2\sigma_{y_i,j}^2}\right)$
其中 $\mu_{y_i,j}$ 是类别 $y_i$ 中特征 $x_j$ 的均值， $\sigma_{y_i,j}^2$ 是类别 $y_i$ 中特征 $x_j$ 的方差。
后验概率计算与分类决策
- 对于一个待分类的样本 $x=(x_1,x_2,\cdots,x_n)$ ，计算它属于每个类别 $y_i$ 的后验概率 $P(y_i|x)$ 。根据贝叶斯定理和朴素假设（特征相互独立），可得：
$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$
由于 $P (x)$ 对于所有类别都是相同的，在比较不同类别后验概率大小时可以忽略。所以实际计算 $P(y_i|x)$ 时主要计算 $P(x|y_i)P(y_i)$ ，而根据朴素假设 $P(x|y_i)=\prod_{j = 1}^{n}P(x_j|y_i)$ 。
- 最后，通过比较样本 $x$ 属于各个类别 $y_i$ 的后验概率 $P(y_i|x)$ ，将样本分类到后验概率最大的类别，即：
$\hat{y}=\arg\max_{y_i}P(y_i|x)$

四、应用场景与优势

应用场景
- 文本分类：比如垃圾邮件过滤。可以把邮件中的单词作为特征，利用朴素贝叶斯判断邮件是垃圾邮件还是正常邮件。
- 情感分析：用于分析文本（如产品评论）的情感倾向，是正面还是负面。将评论中的词汇等作为特征来计算概率。
- 疾病诊断辅助：在医疗领域，以患者的症状作为特征，帮助判断可能患有的疾病类别。
优势
- 算法简单易懂，容易实现。其计算过程主要是基于概率公式的统计计算，代码实现较为直观。
- 对小规模数据表现良好。在数据量不大的情况下，能够快速地训练模型并且得到不错的分类效果。
- 对缺失数据不太敏感。即使部分特征值缺失，依然可以根据其他特征来计算后验概率进行分类。