朴素贝叶斯详解：分类、估计与应用实例-CSDN博客

本文链接：https://blog.csdn.net/HSDBT/article/details/127305948

一、朴素贝叶斯的学习与分类

1.1 简介

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

1.2 基本方法

朴素贝叶斯法通过训练数据集学习联合概率分布P(X, Y)。而联合概率分布又需要先验概率分布和条件概率分布来得到，下面介绍一下它们分别是什么。
先验概率分布：
在这里插入图片描述
条件概率分布：

朴素贝叶斯对条件概率分布作了条件独立性假设：
样本的不同特征之间相互独立没有影响
在这里插入图片描述
后验概率：

朴素贝叶斯分类基本公式：

朴素贝叶斯分类器：

分母都为一样的，所以可以转化为：

1.3例子（用于理解公式，可跳过）

例：一共有苹果10个、香蕉6个、橘子4个装在一个筐中，先将它们分到两个筐中。
A筐有3个苹果、4个香蕉、1个橘子。
B筐有7个苹果、2个香蕉、3个橘子。

1.4 后验概率最大化的含义

个人理解：选择0-1损失函数，分类错误则概率乘一，正确则概率乘零，求期望风险的最小值就相当于求分类错误的后验概率之和的最小值。分类错误的后验概率就等于1减去分类正确的后验概率，即求分类正确的后验概率最大值。
0-1损失函数：
在这里插入图片描述
f(X)为分类决策函数
期望风险函数为：

由此得到：

二、朴素贝叶斯法的参数估计

2.1 极大似然估计

极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。
极大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值
示例：
假定一个盒子里有白球、黑球共三个，但不知白球和黑球分别有几个。如果有放回的从盒子里抽取三个球，发现第一个、第三个球是黑色的，第二个球是白色的。
问:如何估计盒中黑球所占比例β?
参数空间：{0，1/3，2/3，1}
样本：抽到黑色记为X=1，抽到白色记为X=0
得到概率密度函数为:
在这里插入图片描述
联合概率函数：

似然函数：X1=X2=1,X3=0

参数求解：

逐个带入选择使似然函数最大的值对应的概率
极大似然估计：

遍历——解析解——迭代法
在现实中数据集经常会很大，参数空间很多这个逐个带入就很慢，可以采用求偏导的方式求出极大似然估计。无法求偏导的情况采用迭代(先给定一个值，根据结果慢慢进行更新，最后求出极大似然估计)