【机器学习笔记】朴素贝叶斯(从先验分布到后验分布)

朴素贝叶斯算法在李航《统计学习方法》一书中给到的定义

1.1 基本方法

以下是书中具体举出的例子,附带了公式,以便更清楚的理解

 

 自我总结

朴素贝叶斯算法是一种基于贝叶斯定理的监督学习算法,它假设各个特征之间相互独立。朴素贝叶斯从先验分布推导到后验分布的过程如下:

朴素贝叶斯是一种常用的机器学习算法,用于分类和概率推断。它基于贝叶斯定理,并假设特征之间相互独立。

下面是朴素贝叶斯算法的基本步骤,从先验分布到后验分布:

1. 数据准备:准备训练数据集,其中包括输入特征和相应的类别标签。

2. 特征选择:选择适当的特征作为输入,这些特征应具有对目标变量具有较好的预测能力。

3. 先验分布:根据训练数据计算每个类别的先验概率,即P(C),表示在没有任何其他信息的情况下,某个样本属于某个类别的概率。

4. 条件概率:对于每个特征和类别组合,计算条件概率P(X|C),表示给定类别C的情况下,观察到某个特征X的概率。朴素贝叶斯算法假设特征之间相互独立,因此可以将条件概率表示为各个特征的概率乘积。

5. 后验分布:对于一个给定的样本,根据贝叶斯定理计算后验概率P(C|X),表示在观察到特征X的情况下,样本属于类别C的概率。

6. 分类决策:根据后验概率,选择具有最高后验概率的类别作为样本的预测类别。

具体的数学推导如下:

假设有一个样本x=(x₁, x₂, ..., xₙ),其中 x₁, x₂, ..., xₙ 是样本的 n 个特征,而 y 表示样本的标签类别。

根据贝叶斯定理,我们可以得到:

P(y|x) = P(x|y) * P(y) / P(x)

其中,
- P(y|x) 是给定样本 x 的条件下 y 的概率(后验概率)。
- P(x|y) 是在类别 y 下样本 x 的条件概率。
- P(y) 是 y 的先验概率。
- P(x) 是样本 x 出现的概率。

由于朴素贝叶斯算法假设各个特征之间相互独立,我们可以将条件概率 P(x|y) 拆解为各个特征的条件概率的乘积:

P(x|y) = P(x₁|y) * P(x₂|y) * ... * P(xₙ|y)

根据先验概率和条件概率的计算,我们可以计算每个类别的后验概率 P(y|x),然后根据最大后验概率选择类别作为预测结果。

朴素贝叶斯算法的关键假设是特征之间的独立性,这在实际应用中可能不成立,但朴素贝叶斯算法仍然是一种简单且有效的分类方法。它通常适用于文本分类、垃圾邮件过滤、情感分析等任务,并且在处理大规模数据集时具有高效性能。

请注意,实际应用中,朴素贝叶斯算法的性能可能受到数据偏斜、特征相关性等因素的影响。因此,在实践中,通常需要进行特征工程、调整先验概率和处理缺失数据等预处理步骤,以及对模型进行评估和验证来选择合适的算法参数。

1.2 朴素贝叶斯法的参数估计

 方法总结:

朴素贝叶斯算法的参数估计涉及到计算先验概率和条件概率。具体来说,朴素贝叶斯法的参数估计包括先验概率的估计和条件概率的估计。

1. 先验概率的估计:
   先验概率P(C)表示在没有任何其他信息的情况下,某个样本属于类别C的概率。通常情况下,可以通过计算训练集中每个类别出现的频率来估计先验概率。即先验概率P(C)等于属于类别C的样本数量除以总样本数量。

2. 条件概率的估计:
   条件概率P(X|C)表示在给定类别C的情况下,观察到某个特征X的概率。朴素贝叶斯算法假设特征之间相互独立,因此可以将条件概率表示为各个特征的概率乘积。常见的条件概率估计方法包括:

   - 二项式模型:适用于二值特征。可以计算每个特征在给定类别下出现的频率,作为条件概率的估计值。

   - 多项式模型:适用于离散特征。可以计算每个特征取值在给定类别下的频率,作为条件概率的估计值。

   - 高斯模型:适用于连续特征。可以计算每个特征在给定类别下的均值和方差,然后使用高斯分布函数计算条件概率的估计值。

   - 核密度估计:适用于任意类型的特征。可以通过非参数方法如核密度估计,对条件概率进行估计。

在实际应用中,参数估计可能面临一些问题,例如样本稀疏性、特征相关性等。为了应对这些问题,通常采用一些平滑技术,如拉普拉斯平滑(Laplace smoothing)或加法平滑(additive smoothing),以避免概率为零的情况。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值