朴素贝叶斯的参数估计

最新推荐文章于 2024-08-14 22:32:50 发布

DawnRanger

最新推荐文章于 2024-08-14 22:32:50 发布

阅读量6.7k

点赞数 8

分类专栏： machine-learning

本文链接：https://blog.csdn.net/DawnRanger/article/details/52988184

版权

本文介绍了朴素贝叶斯分类器中参数的极大似然估计方法。首先，解释了极大似然估计的基本思想和步骤，然后详细讨论了从变量 Y 的分布律出发，包括当 Y 服从伯努利分布时的似然函数构造和参数估计。通过假设 Y 的分布律，求解了不同情况下的参数估计公式，最后总结了先验概率和条件概率的极大似然估计形式。

摘要由CSDN通过智能技术生成

输入空间 $\mathcal{X} \subseteq \mathbb{R}^n$ 为 $n$ 维向量的集合，输出空间 $\mathcal{Y} = \{c_1,c_2,...,c_K\}$ 为类标记集合设输入为特征向量 $x$ ，输出为类标记 $y$ 。 $X$ 为定义在输入空间上的随机向量， $Y$ 是定义在输出空间上的随机向量。 $P(x,y)$ 为 $X$ 和 $Y$ 的联合概率分布，训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 由 $P(X,Y)$ 独立同分布产生。

朴素贝叶斯的决策函数为：

y = arg max c k P (Y = c k) \prod j N P (X (j) = x (j) | Y = c k)

$y = \operatorname*{arg} \operatorname*{max}_{c_k}P(Y=c_k)\prod_j^N P(X^{(j)}=x^{(j)}|Y=c_k)$

模型的学习意味着估计 $P(Y=c_k)$ 和 $P(X^{(j)}=x^{(j)}|Y=c_k)$ . 可以使用极大似然估计(MLE)和最大后验概率估计(MAP)来进行参数估计.这里主要讨论极大似然估计。

1. 极大似然估计

极大似然估计适于“模型已知，参数未定”的情况. 已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。我们所估计的模型参数，要使得产生这个给定样本的可能性最大. 该方法通常有以下几个步骤：

写出似然函数
对似然函数取对数
求导数
解似然方程

其中最关键的一步在于列出似然函数。

2. 从变量 $Y$ 的分布律出发构造似然函数

2.1 最简单的假设：变量 $Y$ 服从伯努利分布

为简单起见，考虑二分类的情况，并假设变量 $Y$ 服从伯努利分布。设 $p\{Y=c_1\}=p$ ，则 $p\{Y\neq c_1\}=\{Y=c_2\}=1-p$ . 统一起来表示为 $P\{Y=t\}=p^t(1-p)^{1-t}(t=0,1)$ .

事件 $y_i$ 发生的概率是 $P\{y_i=t\}=p^{t_i}(1-p)^{1-t_i}$ . 设训练集中 $c_1$ 出现的次数为 $d$ ，则 $d=\sum_{i=1}^NI(y_i=c_1)$ .

样本联合分布为：

$L (y 1, y 2, . . ., y N; p) = \prod i = 1 N p t i (1 - p) N - t i = p d (1 - p) N - d$ $L(y_1,y_2,...,y_N;p)=\prod_{i=1}^Np^{t_i}(1-p)^{N-t_i}=p^d(1-p)^{N-d}$

把 $L(y_1,y_2,...,y_N;p)$ 看成是 $p$ 的函数，称为参数 $p$ 的似然函数，记为 $L(p)$ . 取对数似然函数 $\ln L(p) = d\ln p+(N-d)\ln(1-p)$ ,对其求导有：

$\partial ln L ( p ) \partial p = d p - N - d 1 - p$ $\frac{\partial \ln L(p)}{\partial p}=\frac{d}{p}-\frac{N-d}{1-p}$

令 $\frac{\partial \ln L(p)}{\partial p}$ =0，可解得 $p=\frac{d}{N}$ ，即：

$P (Y = c k) =$