【西瓜书笔记】6.极大似然估计与朴素贝叶斯

西风瘦马1912

已于 2022-01-30 08:07:32 修改

阅读量895

点赞数

分类专栏：《机器学习》西瓜书第15期文章标签：机器学习分类概率论朴素贝叶斯算法最大似然

于 2022-01-30 08:00:08 首次发布

本文链接：https://blog.csdn.net/weixin_39236489/article/details/122750026

版权

《机器学习》西瓜书第15期专栏收录该内容

19 篇文章 0 订阅

订阅专栏

6.1 贝叶斯判定准则

贝叶斯判定准则:
为最小化总体风险，只需在每个样本上选择那个能使条件风险 $\mid x)$ 最小的类别标记，即
$h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \min } R(c \mid \boldsymbol{x})$
此时， $h^{*}$ 称为贝叶斯最优分类器

【这里的R和 $h^{*}$ 针对的都是单个输入样本。也就是说，对于单个样本， $h^{*}(\boldsymbol{x})$ 输出一个类别标记c，这个c使得R取到最小值】

已知条件风险 $\mid x)$ 的计算公式是
$R\left(c_{i} \mid x\right)=\sum_{j=1}^{N} \lambda_{i j} P\left(c_{j} \mid x\right)$
跟西瓜书中一样，这里我们假设有N种可能的类别标记， $\mathcal{Y}=\left\{c_{1}, c_{2}, \ldots, c_{N}\right\}$ 。 $\lambda_{ij}$ 是将一个真是标记为 $c_{j}$ 的样本误分类为 $c_i$ 所产生的损失。若目标是最小化分类错误率，则误判损失 $\lambda_{ij}$ 对应为0/1损失，也即
$\lambda_{i, j}=\left\{\begin{array}{l} 0 . \text { if } i=j \\ 1 . \text { otherwise } \end{array}\right.$
那么条件风险 $\mid x)$ 的计算公式可以进一步展开为
$\begin{aligned} R\left(c_{i} \mid \boldsymbol{x}\right) &=1 \times P\left(c_{1} \mid \boldsymbol{x}\right)+\ldots+1 \times P\left(c_{i-1} \mid \boldsymbol{x}\right)+0 \times P\left(c_{i} \mid \boldsymbol{x}\right)+1 \times P\left(c_{i-1} \mid \boldsymbol{x}\right)+\ldots+1 \times P\left(c_{N} \mid \boldsymbol{x}\right) \\ &=P\left(c_{1} \mid \boldsymbol{x}\right)+\ldots+P\left(c_{i-1} \mid \boldsymbol{x}\right)+P\left(c_{i-1} \mid x\right)+\ldots+P\left(c_{N} \mid \boldsymbol{x}\right) \end{aligned}$
这里除了 $\lambda_{ii}=0$ ，其余的 $\lambda$ 都等于1。又因为 $\sum_{j=1}^{N} P\left(c_{j} \mid x\right)=1$ , 所以
$R\left(c_{i} \mid x\right)=1-P\left(c_{i} \mid x\right)$
也就是西瓜书式7.5。

于是，最小化错误率的贝叶斯最优分类器为
$h^{*}(x)=\underset{c \in \mathcal{Y}}{\arg \min } R(c \mid x)=\underset{c \in \mathcal{Y}}{\arg \min }(1-P(c \mid x))=\underset{c \in \mathcal{Y}}{\arg \max } P(c \mid x)$

6.2 多元正态分布参数的极大似然估计

已知对数似然函数为
$L\left(\boldsymbol{\theta}_{C}\right)=\sum_{\boldsymbol{x} \in D_{c}} \log P\left(\boldsymbol{x} \mid \boldsymbol{\theta}_{C}\right)$
此为西瓜书式7.10

为了便于后续计算，我们令log的底数为e，则对数似然函数可化为
$L\left(\boldsymbol{\theta}_{C}\right)=\sum_{\boldsymbol{x} \in D_{c}} \ln P\left(\boldsymbol{x} \mid \boldsymbol{\theta}_{C}\right)$
由于 $P\left(x \mid \boldsymbol{\theta_{c}}\right)=P(x \mid c) \sim \mathcal{N}\left(\mu_{c}, \sigma_{c}^{2}\right)$ ,那么
$P\left(\boldsymbol{x} \mid \boldsymbol{\theta}_{c}\right)=\frac{1}{\sqrt{(2 \pi)^{d}\left|\boldsymbol{\Sigma}_{c}\right|}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{c}\right)\right)$
其中，d表示 $\boldsymbol{x}$ 的维数， $\Sigma_{C}=\sigma_{C}^{2}$ 为对称正定协方差矩阵， $\left|\Sigma_{c}\right|$ 表示 $\Sigma_{c}$ 的行列式，将上式代入对数似然函数可得
$L\left(\boldsymbol{\theta}_{c}\right)=\sum_{\boldsymbol{x} \in D_{c}} \ln \left[\frac{1}{\sqrt{(2 \pi)^{d}\left|\boldsymbol{\Sigma}_{c}\right|}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{c}\right)\right)\right]$
令 $\left|D_{c}\right|=N$ ，则对数似然函数可化为：
$\begin{aligned} L L\left(\boldsymbol{\theta}_{c}\right) &=\sum_{i=1}^{N} \ln \left[\frac{1}{\sqrt{(2 \pi)^{d}\left|\boldsymbol{\Sigma_c}\right|}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma_c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right)\right] \\ &=\sum_{i=1}^{N} \ln \left[\frac{1}{\sqrt{(2 \pi)^{d}}} \cdot \frac{1}{\sqrt{\left|\boldsymbol{\Sigma_c}\right|}} \cdot \exp \left(-\frac{1}{2}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma_c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left\{\ln \frac{1}{\sqrt{(2 \pi)^{d}}}+\ln \frac{1}{\sqrt{\left|\boldsymbol{\Sigma_c}\right|}}+\ln \left[\exp \left(-\frac{1}{2}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma_c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right)\right]\right\}\\ &=\sum_{i=1}^{N}\left\{-\frac{d}{2} \ln (2 \pi)-\frac{1}{2} \ln \left|\boldsymbol{\Sigma_c}\right|-\frac{1}{2}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right\} \\ &=-\frac{N d}{2} \ln (2 \pi)-\frac{N}{2} \ln \left|\boldsymbol{\Sigma}_{c}\right|-\frac{1}{2} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right) \end{aligned}$
由于参数 $\boldsymbol{\theta_{c}}$ 的极大似然估计 $\hat{\boldsymbol{\theta}}_{C}$ 为：
$\hat{\boldsymbol{\theta}}_{C}=\underset{\boldsymbol{\theta}_{c}}{\arg \max } L L\left(\boldsymbol{\theta}_{C}\right)$
所以接来下只需要求出使得对数似然函数 $L\left(\boldsymbol{\theta}_{C}\right)$ 取到最大值的 $\hat{\mu}_{c}$ 和 $\hat{\Sigma}_{c}$ ，也就求出了 $\hat{\theta}_{c}$ 。

对 $L\left(\boldsymbol{\theta}_{C}\right)$ 关于 $\mu_{c}$ ，求偏导
$\begin{aligned} \frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\mu}_{c}} &=\frac{\partial}{\partial \boldsymbol{\mu}_{c}}\left[-\frac{N d}{2} \ln (2 \pi)-\frac{N}{2} \ln \left|\boldsymbol{\Sigma}_{c}\right|-\frac{1}{2} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right] \\ &=\frac{\partial}{\partial \boldsymbol{\mu}_{c}}\left[-\frac{1}{2} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right] \\ &=-\frac{1}{2} \sum_{i=1}^{N} \frac{\partial}{\partial \boldsymbol{\mu}_{c}}\left[\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right] \\ &=-\frac{1}{2} \sum_{i=1}^{N} \frac{\partial}{\partial \boldsymbol{\mu}_{c}}\left[\left(\boldsymbol{x}_{i}^{T}-\boldsymbol{\mu}_{c}^{T}\right) \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right]\\ &=-\frac{1}{2} \sum_{i=1}^{N} \frac{\partial}{\partial \boldsymbol{\mu}_{c}}\left[\left(\boldsymbol{x}_{i}^{T}-\boldsymbol{\mu}_{c}^{T}\right)\left(\boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}-\boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}\right)\right] \\ &=-\frac{1}{2} \sum_{i=1}^{N} \frac{\partial}{\partial \boldsymbol{\mu}_{c}}\left[\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}-\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}-\boldsymbol{\mu}_{c}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}+\boldsymbol{\mu}_{c}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}\right] \end{aligned}$
由于 $\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}$ 的计算结果为标量，所以
$\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}=\left(\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}\right)^{T}=\boldsymbol{\mu}_{c}^{T}\left(\boldsymbol{\Sigma}_{c}^{-1}\right)^{T} \boldsymbol{x}_{i}=\boldsymbol{\mu}_{c}^{T}\left(\boldsymbol{\Sigma}_{c}^{T}\right)^{-1} \boldsymbol{x}_{i}=\boldsymbol{\mu}_{c}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}$
于是上式可以进一步化为
$\frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\mu}_{c}}=-\frac{1}{2} \sum_{i=1}^{N} \frac{\partial}{\partial \boldsymbol{\mu}_{c}}\left[\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}-2 \boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}+\boldsymbol{\mu}_{c}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}\right]$
由矩阵微分公式 $\dfrac{\partial \boldsymbol{a}^{T} \boldsymbol{x}}{\partial \boldsymbol{x}}=\boldsymbol{a}$ , $\dfrac{\partial \boldsymbol{x}^{T} \boldsymbol{B} \boldsymbol{x}}{\partial \boldsymbol{x}}=\left(\boldsymbol{B}+\boldsymbol{B}^{T}\right) \boldsymbol{x}$ 可得
$\begin{aligned} \frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\mu}_{c}} &=-\frac{1}{2} \sum_{i=1}^{N}\left[0-\left(2 \boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1}\right)^{T}+\left(\boldsymbol{\Sigma}_{c}^{-1}+\left(\boldsymbol{\Sigma}_{c}^{-1}\right)^{T}\right) \boldsymbol{\mu}_{c}\right] \\ &=-\frac{1}{2} \sum_{i=1}^{N}\left[-\left(2\left(\boldsymbol{\Sigma}_{c}^{-1}\right)^{T} \boldsymbol{x}_{i}\right)+\left(\boldsymbol{\Sigma}_{c}^{-1}+\left(\boldsymbol{\Sigma}_{c}^{-1}\right)^{T}\right) \boldsymbol{\mu}_{c}\right] \\ &=-\frac{1}{2} \sum_{i=1}^{N}\left[-\left(2 \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}\right)+2 \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}\right] \\ &=\sum_{i=1}^{N} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}-N \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c} \end{aligned}$
令偏导数等于0可得
$\begin{gathered} \frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\mu}_{c}}=\sum_{i=1}^{N} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}-N \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}=0 \\ N \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}=\sum_{i=1}^{N} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i} \\ N \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}=\boldsymbol{\Sigma}_{c}^{-1} \sum_{i=1}^{N} \boldsymbol{x}_{i} \\ N \boldsymbol{\mu}_{c}=\sum_{i=1}^{N} \boldsymbol{x}_{i} \end{gathered}$

$\boldsymbol{\mu_{c}}=\frac{1}{N} \sum_{i=1}^{N} \boldsymbol{x}_{i} \Rightarrow \hat{\boldsymbol{\mu}}_{c}=\frac{1}{N} \sum_{i=1}^{N} \boldsymbol{x}_{i}$

此即为西瓜书式7.12

对 $L\left(\boldsymbol{\theta}_{C}\right)$ 关于 $\Sigma_{C}$ 求偏导
$\begin{aligned} \frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\Sigma}_{c}} &=\frac{\partial}{\partial \boldsymbol{\Sigma}_{c}}\left[-\frac{N d}{2} \ln (2 \pi)-\frac{N}{2} \ln \left|\boldsymbol{\Sigma}_{c}\right|-\frac{1}{2} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right] \\ &=\frac{\partial}{\partial \boldsymbol{\Sigma}_{c}}\left[-\frac{N}{2} \ln \left|\boldsymbol{\Sigma}_{c}\right|-\frac{1}{2} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right] \\ &=-\frac{N}{2} \cdot \frac{\partial}{\partial \boldsymbol{\Sigma}_{c}}\left[\ln \left|\boldsymbol{\Sigma}_{c}\right|\right]-\frac{1}{2} \sum_{i=1}^{N} \frac{\partial}{\partial \boldsymbol{\Sigma}_{c}}\left[\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\right] \end{aligned}$
由矩阵微分公式 $\dfrac{\partial|\mathbf{X}|}{\partial \mathbf{X}}=|\mathbf{X}| \cdot\left(\mathbf{X}^{-1}\right)^{T}$ ， $\dfrac{\partial \boldsymbol{a}^{T} \mathbf{X}^{-1} \boldsymbol{b}}{\partial \mathbf{X}}=-\mathbf{X}^{-T} \boldsymbol{a} \boldsymbol{b}^{T} \mathbf{X}^{-T}$ 可得
$\begin{aligned} \frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\Sigma}_{c}} &=-\frac{N}{2} \cdot \frac{1}{\left|\boldsymbol{\Sigma}_{c}\right|} \cdot\left|\boldsymbol{\Sigma}_{c}\right| \cdot\left(\boldsymbol{\Sigma}_{c}^{-1}\right)^{T}-\frac{1}{2} \sum_{i=1}^{N}\left[-\boldsymbol{\Sigma}_{c}^{-T}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \boldsymbol{\Sigma}_{c}^{-T}\right] \\ &=-\frac{N}{2} \cdot\left(\boldsymbol{\Sigma}_{c}^{-1}\right)^{T}-\frac{1}{2} \sum_{i=1}^{N}\left[-\boldsymbol{\Sigma}_{c}^{-T}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \boldsymbol{\Sigma}_{c}^{-T}\right] \\ &=-\frac{N}{2} \boldsymbol{\Sigma}_{c}^{-1}+\frac{1}{2} \sum_{i=1}^{N}\left[\boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \boldsymbol{\Sigma}_{c}^{-1}\right] \end{aligned}$
令偏导数等于0可得
$\frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\Sigma}_{c}}=-\frac{N}{2} \boldsymbol{\Sigma}_{c}^{-1}+\frac{1}{2} \sum_{i=1}^{N}\left[\boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \boldsymbol{\Sigma}_{c}^{-1}\right]=0$

$\begin{gathered} -\frac{N}{2} \Sigma_{c}^{-1}=-\frac{1}{2} \sum_{i=1}^{N}\left[\boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \boldsymbol{\Sigma}_{c}^{-1}\right] \\ N \Sigma_{c}^{-1}=\sum_{i=1}^{N}\left[\boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \boldsymbol{\Sigma}_{c}^{-1}\right] \\ N \boldsymbol{\Sigma}_{c}^{-1}=\boldsymbol{\Sigma}_{c}^{-1}\left[\sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T}\right] \boldsymbol{\Sigma}_{c}^{-1} \\ N=\boldsymbol{\Sigma}_{c}^{-1}\left[\sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T}\right] \end{gathered}$

$\Sigma_{c}=\frac{1}{N} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \Rightarrow \hat{\boldsymbol{\Sigma}}_{c}=\frac{1}{N} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T}$

此即为西瓜书式7.13

6.3 朴素贝叶斯分类器

已知最小化分类错误率的贝叶斯最优分类器为
$h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c \mid \boldsymbol{x})$
又由贝叶斯定理可知
$\mid \boldsymbol{x})=\frac{P(\boldsymbol{x}, c)}{P(\boldsymbol{x})}=\frac{P(c) P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})}$
所以
$h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } \frac{P(c) P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})}=\underset{c \in \mathcal{Y}}{\arg \max } P(c) P(\boldsymbol{x} \mid c)$
已知属性条件独立性假设为
$P(\boldsymbol{x} \mid c)=P\left(x_{1}, x_{2}, \ldots, x_{d} \mid c\right)=\prod_{i=1}^{d} P\left(x_{i} \mid c\right)$
【其中，d表示 $\boldsymbol{x}$ 的维数】

所以
$h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c) \prod_{i=1}^{d} P\left(x_{i} \mid c\right)$
此即为朴素贝叶斯分类器的分类器

对于 $P (c)$ ，它表示的是样本空间中各类样本所占的比例，根据大数定律，当训练集包含充足的独立同分布样本时， $P (c)$ 可通过各类样本出现的频率来进行估计，也即
$P(c)=\frac{\left|D_{c}\right|}{|D|}$
其中，D表示训练集， $∣ D ∣$ 表示D中的样本个数， $D_{c}$ 表示训练集D中第c类样本组成的集合， $\left|D_{c}\right|$ 表示集合 $D_{c}$ 中的样本个数。

对于 $P\left(x_{i} \mid c\right)$ ，若样本的第i个属性 $x_{i}$ 取值为连续值，我们假设该属性的取值服从正态分布，也即
$P\left(x_{i} \mid c\right) \sim \mathcal{N}\left(\mu_{c, i}, \sigma_{c, i}^{2}\right) \Rightarrow P\left(x_{i} \mid c\right)=\frac{1}{\sqrt{2 \pi} \sigma_{c, i}} \exp \left(-\frac{\left(x_{i}-\mu_{c, i}\right)^{2}}{2 \sigma_{c, i}^{2}}\right)$
其中正态分布的参数可以用极大似然估计法推得： $\mu_{c, i}$ 和 $\sigma_{c, i}^{2}$ 属性上取值的均值和方差

对于 $P\left(x_{i} \mid c\right)$ ，若样本的第i个属性 $x_{i}$ 取值为离散值，同样根据极大似然估计法，我们用其频率值作为其概率值的估计值，也即
$P\left(x_{i} \mid c\right)=\frac{\left|D_{c, x_{i}}\right|}{\left|D_{c}\right|}$
其中， $D_{c, x_{i}}$ 表示 $D_c$ 中在第i个属性上取值为 $x_{i}$ 的样本组成的集合。

例:现将一枚6面骰子抛掷10次，抛掷出的点数分别为2、3、2、5、4、6、1、3、4、2，试基于此抛掷结果估计这枚骰子抛掷出各个点数的概率。

解:设这枚骰子抛掷出点数i的概率为 $P_i$ ，根据极大似然估计法可以写出似然函数为
$L(\theta)=P_{1} \times P_{2}^{3} \times P_{3}^{2} \times P_{4}^{2} \times P_{5} \times P_{6}$
其对数似然函数即为
$\begin{aligned} L L(\theta) &=\ln L(\theta)=\ln \left(P_{1} \times P_{2}^{3} \times P_{3}^{2} \times P_{4}^{2} \times P_{5} \times P_{6}\right) \\ &=\ln P_{1}+3 \ln P_{2}+2 \ln P_{3}+2 \ln P_{4}+\ln P_{5}+\ln P_{6} \end{aligned}$
由于 $P_i$ 之间满足如下约束
$P_{1}+P_{2}+P_{3}+P_{4}+P_{5}+P_{6}=1$
所以此时最大化对数似然函数属于带约束的最优化问题，也即
$\begin{array}{ll} \max & L L(\theta)=\ln P_{1}+3 \ln P_{2}+2 \ln P_{3}+2 \ln P_{4}+\ln P_{5}+\ln P_{6} \\ \text { s.t. } & P_{1}+P_{2}+P_{3}+P_{4}+P_{5}+P_{6}=1 \end{array}$
定理：对于一个优化问题
$\begin{array}{ll} \min & f(x) \\ \text { s.t. } & g_{i}(x) \leq 0 \quad(i=1, \ldots, m) \\ & h_{j}(x)=0 \quad(j=1, \ldots, n) \end{array}$
若 $f(x) ,g_{i}(x) ,h_{j}(x)$ 一阶连续可微，并且 $f(x), g_{i}(x)$ 是凸函数， $h_{j}(x)$ 是线性函数，那么满足如下KKT条件的点一定是优化问题的最优解。
$\left\{\begin{array}{l} \nabla_{x} L\left(\boldsymbol{x}^{*} , \boldsymbol{\mu}^{*} , \boldsymbol{\lambda}^{*}\right)=\nabla f\left(\boldsymbol{x}^{*}\right)+\sum_{i=1}^{m} \mu_{i}^{*} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)+\sum_{j=1}^{n} \lambda_{j}^{*} \nabla h_{j}\left(\boldsymbol{x}^{*}\right)=0 \\ h_{j}\left(\boldsymbol{x}^{*}\right)=0 \\ g_{i}\left(\boldsymbol{x}^{*}\right) \leq 0 \\ \mu_{i}^{*} \geq 0 \\ \mu_{i}^{*}g_{i}\left(\boldsymbol{x}^{*}\right)=0 \end{array}\right.$
【参考文献:王燕军, 梁治安. 最优化基础理论与方法[M]. 复旦大学出版社, 2011.】

由拉格朗日乘子法可得拉格拉格朗日函数为
$\mathcal{L}(\theta, \lambda)=\ln P_{1}+3 \ln P_{2}+2 \ln P_{3}+2 \ln P_{4}+\ln P_{5}+\ln P_{6}+\lambda\left(P_{1}+P_{2}+P_{3}+P_{4}+P_{5}+P_{6}-1\right)$
对拉格朗日函数 $\mathcal{L}(\theta)$ 分别关于 $P_i$ 求偏导，然后令其等于0可得
$\begin{aligned} \frac{\partial \mathcal{L}(\theta, \lambda)}{\partial P_{1}} &=\frac{\partial}{\partial P_{1}}\left[\ln P_{1}+3 \ln P_{2}+2 \ln P_{3}+2 \ln P_{4}+\ln P_{5}+\ln P_{6}+\lambda\left(P_{1}+P_{2}+P_{3}+P_{4}+P_{5}+P_{6}-1\right)\right]=0 \\ &=\frac{\partial}{\partial P_{1}}\left(\ln P_{1}+\lambda P_{1}\right)=0 \\ &=\frac{1}{P_{1}}+\lambda=0 \\ & \Rightarrow \lambda=-\frac{1}{P_{1}} \end{aligned}$
同理可求得:
$\lambda=-\frac{1}{P_{1}}=-\frac{3}{P_{2}}=-\frac{2}{P_{3}}=-\frac{2}{P_{4}}=-\frac{1}{P_{5}}=-\frac{1}{P_{6}}$
又因为
$P_{1}+P_{2}+P_{3}+P_{4}+P_{5}+P_{6}=1$
所以
$P_{1}=\frac{1}{10}, P_{2}=\frac{3}{10}, P_{3}=\frac{2}{10}, P_{4}=\frac{2}{10}, P_{5}=\frac{1}{10}, P_{6}=\frac{1}{10}$
此时抛掷出各个点数的概率值与其频率值相等。