一、频率派vs贝叶斯学派

亲持红叶

已于 2023-07-17 00:34:03 修改

阅读量157

点赞数

分类专栏：机器学习公式白板推导文章标签：机器学习人工智能数据挖掘

于 2023-07-17 00:25:36 首次发布

本文链接：https://blog.csdn.net/hbkybkzw/article/details/131757237

版权

机器学习公式白板推导专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

简介
1 频率派VS贝叶斯派

简介

最近准备每周听一下b站白板推导系列，希望自己每周至少听一课并整理一课的公式外加一些扩展吧，慢慢来
白板推导课程：

b站：https://www.bilibili.com/video/BV1aE411o7qd
目前已经有人整理出了非常优秀的公式，会借鉴

github: https://github.com/tsyw/MachineLearningNotes

1 频率派VS贝叶斯派

1.1 数据与参数

参数（parameter）,对参数表示为 $\theta$
假设有一概率模型 ,随机变量 $x$ 服从于概率分布 $x\sim P(x|\theta)$
数据（data），对数据集使用X表示，其中对每个 $x_i$ ,我们称之为一个样本,假设一份数据有p个特征，则每个样本是长度为p的向量
$x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T} \\ i = 1,2,...,N$
对于N个样本，P个特征的数据集X表示为
$\begin{aligned} X &=(x_1,x_2,\cdots,x_N )_{N\cdot P}^T \\ &=\left[\begin{array}{cccc} {x}_{11} & {x}_{12} & \cdots & {x}_{1p} \\ {x}_{21} & {x}_{22} & \cdots & {x}_{2p} \\ \vdots & \vdots &\vdots &\vdots & \\ {x}_{N1} & {x}_{N2} & \cdots & {x}_{Np}\\ \end{array}\right]_{N\cdot P} \end{aligned}$
对于每个 $x_{ij}$ 均由上述概率分布 $x\sim P(x|\theta)$ 产生。
标签 $Y= {y_1,y_2,...,y_n}$

1.2 频率派

频率注意学派认为参数 $\theta$ 是一个未知常数，即概率分布 $p(x|\theta)$ 中的 $\theta$ 是一个常量。
对于 $N$ 个样本数据来说观测数据集X, $x\mathop\sim \limits^{iid} p{x|\theta}$ ,的概率为。为了求 $\theta$ 的大小，我们采用最大对数似然MLE的方法：
$\begin{aligned} \theta_{MLE}&=\mathop{argmax}\limits _{\theta} \mathop{L}(\theta)\\ &=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\\ &=\mathop{argmax}\mathop{\log}\left(\prod\limits _{i=1}^{N}p(x_{i}|\theta)\right)\\ &\mathop{=}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta) \end{aligned}$

1.3贝叶斯派

贝叶斯派认为参数 $\theta$ 满足一个预设的先验分布 $\theta\sim p(\theta)$ 。
借助贝叶斯定理，可将先验分布和后验分布结合联系：
$\begin{aligned} \theta_{MAP}&=\mathop{argmax}\limits _{\theta}p(\theta|X)\\ &=\mathop{argmax}\limits _{\theta}\frac{p(X|\theta)\cdot p(\theta)}{p(x)} \\ &\propto \mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta) \end{aligned}$
其中
1. $p(\theta|X)$ 为后验概率（posterior）
2. $p(X|\theta)$ 为似然函数（likelyhood）
3. $p(\theta)$ 为先验概率（prior）
4. $\int_{\theta}p(x|\theta)\cdot p(\theta) d\theta$ ,是个定积分，算出来是一个确定的数
上述公式中第二个等号是由于分母和 $\theta$ 没有关系（积分被积掉了）。求解这个 $\theta$ 值后计算 $\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta}$ ，就得到了参数的后验概率。其中 $p(X|\theta)$ 叫似然，是我们的模型分布。得到了参数的后验分布后，我们可以将这个分布用于预测贝叶斯预测：
$p(x_{new}|X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta$

1.4掷硬币问题的极大似然估计和最大后验估计

极大似然估计

在掷硬币实验中用1表示出现正面向上，用0表示出现反面向上,即
$x_i= \left\{ \begin{aligned} 1,\quad正面出现 \\ 0,\quad反面出现 \end{aligned} \right.$

估计出现正面向上的概率为 $\theta$ ,反面出现向上的概率为 $1-\theta$ ，$x_i \sim B(1.,\theta) $,概率分布函数为

$\theta^x(1-\theta)^{1-x} = \left\{ \begin{aligned} P(x=0) & = 1-\theta \\ P(x=1) & = \theta \end{aligned} \right.$

似然函数：
$\begin{aligned} L(\theta) & = P(X_1=x_1|\theta)*\cdots*P(X_n=x_n|\theta) \\ & = \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i} \end{aligned}$
对数似然函数：
$\begin{aligned} \ln {L(\theta)} & = \ln { \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}} \\ & = \sum_{i=1}^n\left[ \ln\theta^{x_i} + \ln{(1- \theta)^{1-x_i} } \right]\\ & = \sum_{i=1}^nx_i\ln \theta + \sum_{i=1}^n(1-x_i)\ln{(1- \theta)} \\ & = \sum_{i=1}^nx_i\ln \theta + (n-\sum_{i=1}^nx_i)\ln{(1- \theta)} \end{aligned}$
目标： $\mathcal {max} \ln L(\theta)$

对 $\theta$ 求偏导
$\\ \frac{\partial\ln L(\theta)}{\partial \theta}=\frac{\sum\limits_{i=1}^nx_i}{\theta}-\frac{n-\sum\limits_{i=1}^nx_i}{1-\theta}$
令偏导数等于0，则
$\frac{\sum\limits_{i=1}^nx_i}{\theta}=\frac{n-\sum\limits_{i=1}^nx_i}{1-\theta}$
求出
$\hat {\theta} = \frac{1}{n}\sum\limits_{i=1}^nx_i$
最大后验估计

假设已知先验概率为 $\beta$ 分布
$\pi(\theta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1}$
求后验概率 $P(\theta \mathcal{|} x_1,x_2,...,x_n)$
$\begin{aligned} P(\theta \mathcal{|} x_1,x_2,...,x_n) & = \frac{P(\theta,x_1,x_2,...,x_n)}{P(x_1,x_2,...,x_n)} \\ & = \frac{\pi (\theta)*p(x_1|\theta)*\cdots*p(x_n|\theta)}{\int P(\theta,x_1,x_2,...,x_n) \mathcal{d} \theta} \\ &\propto \pi (\theta)*p(x_1|\theta)*\cdots*p(x_n|\theta) \\ & = \theta^{\alpha-1}(1-\theta)^{\beta-1}*\ln { \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}} \\ & = \theta^{\sum x_i + \alpha -1} * (1-\theta)^{n-\sum x_i +\beta -1} \end{aligned}$
备注：
1. 因为 $\int P(\theta,x_1,x_2,...,x_n) d\theta$ 已将 $\theta$ 积分挤掉了，所以与其无关，为一个常数;
2. $\propto$ ：正比于；
3. $\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)}$ 也是一个常数不考虑；
4. $\theta^{\sum x_i + \alpha -1} * (1-\theta)^{n-\sum x_i +\beta -1}$ 是参数为 $\sum x_i + \alpha -1,n-\sum x_i +\beta -1$ 的 $\beta$ 分布
此时 $L(\theta)$ ：
$L(\theta) = \theta^{\sum x_i + \alpha -1} * (1-\theta)^{n-\sum x_i +\beta -1}$
对数似然：
$\ln L(\theta) = (\sum\limits_{i=1}^n x_i + \alpha -1)\ln \theta +(n-\sum \limits_{i=1}^n x_i +\beta -1)\ln(1-\theta)$
对 $\theta$ 求偏导 :
$\frac{\partial\ln L(\theta)}{\partial \theta} = \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{\theta} - \frac{n-\sum \limits_{i=1}^n x_i +\beta -1}{1-\theta}$
令偏导数等于0，则
$\frac{\sum\limits_{i=1}^n x_i + \alpha -1}{\theta} = \frac{n-\sum \limits_{i=1}^n x_i +\beta -1}{1-\theta}$
求出：
$\hat {\theta} = \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{n+\alpha +\beta -2}$
极大似然和最大后验估计总结
1. 对比极大似然 $\theta$ 估计值 $\hat {\theta} = \frac{1}{n}\sum\limits_{i=1}^nx_i$ 和最大后验估计值 $\hat {\theta} = \frac{\sum\limits_{i=1}^n x_i + \alpha -1}{n+\alpha +\beta -2}$ ,当样本n趋于无穷大的时候，两者 $\theta$ 的估计值是区域一致的；
2. 最大后验估计中会给出参数的先验信息，当样本n足够大的时候，我们先前的先验信息和样本信息比就微不足道了，所以就近似于只用所有样本信息去估计 $\theta$ 所得到的结果；
3. 考虑极端情况下，n=1，通过极大似然估计，结果是0，或者是1，但是在最大后验估计中，若样本n=1，那么最大后验估计结果就是 $\frac{ \alpha }{\alpha +\beta -1}$ 或者 $\frac{ \alpha-1 }{\alpha +\beta -1}$ ,这是样本量雄安的时候，最大后验估计的优势所在。

1.5 推导正太分布均值的极大似然估计和最大后验估计

问题：
推导下述正太分布均值的极大似然估计和最大后验估计，数据 $x_1,x_2,...,x_n$ 来自正太分布 $\mathcal{N}(\mu,\sigma^2)$ ,其中 $\sigma^2$ 已知：
1. 根据样本 $x_1,x_2,...,x_n$ 写出 $\mu$ 的极大似然估计
2. 假设 $\mu$ 的先验分布是 $\mathcal{N}(0,\tau^2)$ ,根据样本 $x_1,x_2,...,x_n$ 写出 $\mu$ 的最大后验估计
根据样本 $x_1,x_2,...,x_n$ 写出 $\mu$ 的极大似然估计

样本的概率密度函数 $f(x_i)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x_i-\mu)^{2}}{2 \sigma^{2}}\right) \quad i=1,2,.....,n$

似然函数：
$\begin{aligned} L(x_i;\mu) & = \prod_{i=1}^n f(x_i;\mu)\\ & = ({\sqrt{2 \pi} \sigma})^{-n} * \exp \left( -\frac{1}{2 \sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu)^{2} \right) \end{aligned}$
对数似然函数：
$\begin{aligned} \ln L(x_i;\mu) & = -n \ln ({\sqrt{2 \pi} \sigma}) - \frac{1}{2 \sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu)^{2} \\ \Rightarrow \quad \frac{\partial\ln L(x_i;\mu)}{\partial \mu} & = \frac{1}{\sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu) \\ & = \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) \\ 令 \quad \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) & = 0 \\ \Rightarrow \quad \hat{\mu} & = \frac{1}{n}\sum\limits_{i=1}^nx_i \end{aligned}$
假设 $\mu$ 的先验分布是$\mathcal{N}(0,\tau^2) $, 根据样本$ x_1,x_2,…,x_n $写出$ \mu$的最大后验估计

先验分布 $f(\mu)=\frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right) \quad i=1,2,.....,n$
$\begin{aligned} P(\mu \mathcal{|} x_1,x_2,...,x_n) & = \frac{P(\mu,x_1,x_2,...,x_n)}{P(x_1,x_2,...,x_n)} \\ & = \frac{f (\mu)*p(x_1|\mu)*\cdots*p(x_n|\mu)}{\int P(\mu,x_1,x_2,...,x_n) \mathcal{d} \mu} \\ &\propto f (\mu)*p(x_1|\mu)*\cdots*p(x_n|\mu) \\ & = \frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right)*\prod_{i=1}^n \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x_i-\mu)^{2}}{2 \sigma^{2}}\right) \end{aligned}$
此时 $L(\theta)$ ：
$L(\theta) =\frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right)*\prod_{i=1}^n \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x_i-\mu)^{2}}{2 \sigma^{2}}\right)$
对数似然：
$\begin{aligned} \ln P(\mu \mathcal{|} x_1,x_2,...,x_n) & = -\ln \sqrt{2 \pi} \tau-\frac{\mu^{2}}{2 \tau^{2}} -n \ln ({\sqrt{2 \pi} \sigma})-\frac{1}{2 \sigma^{2}} \sum\limits_{i=1}^n(x_i-\mu)^{2} \\ \Rightarrow \quad \frac{\partial\ln P(\mu \mathcal{|} x_1,x_2,...,x_n)}{\partial \mu}& = -\frac{\mu}{\tau^2} + \frac{1}{\sigma ^ 2}\sum\limits_{i=1}^n(x_i-\mu) \\ & = \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) - \frac{\mu}{\tau^2} \\ 令\quad \frac{1}{\sigma^{2}} (\sum\limits_{i=1}^nx_i-n\mu) - \frac{\mu}{\tau^2} & = 0 \\ \Rightarrow \quad \frac{1}{\sigma^{2}}(\sum\limits_{i=1}^nx_i-n\mu) & = \frac{\mu}{\tau^2}\\ \Rightarrow \quad \hat{\mu} & = \frac{\tau^2\sum\limits_{i=1}^2x_i}{\sigma^2+n\tau^2}\\ & = \frac{\sum\limits_{i=1}^2x_i}{n+\frac{\sigma^2}{\tau^2}} \end{aligned}$
当n较小时候，贝叶斯估计比极大似然估计要准确一些

1.6 朴素贝叶斯算法

基于贝叶斯定理和特征条件独立假设的分类方法
朴素贝叶斯法与贝叶斯估计是不同的概念
生成模型与判别模型
$\left\{ \begin{aligned} &\text{生成模型} ：P(Y|X) = \frac{P(X,Y)}{P(X)} \text{X,Y为随机变量} \\ &\text{判别模型} ：Y=f(X),P(Y|X) \end{aligned} \right.$

1.6.1 朴素贝叶斯法的学习与分类

输入： 特征向量 $\in \mathcal{X} \subseteq \mathrm{R}^{n}$ 为实例的特征向量,

输出：类标记 $y_{i} \in \mathcal{Y}=\left\{c_{1}, c_{2}, \cdots, c_{K}\right\}$

$X$ 是定义在输入空间 $\mathcal{X}$ 上的随机向量, $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量。 $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集
$\begin{aligned} T& = \left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} \\ & = \left\{ (x_i,y_i)\right\}_{i=1}^N \end{aligned}$
由 $P (X, Y)$ 独立同分布产生。
先验概率分布：
$P(Y=c_k),\quad k =1,2,...,K$
条件概率分布：
$P\left(X=x \mid Y=c_{k}\right)=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} \mid Y=c_{k}\right), \quad k=1,2, \cdots, K$
联合概率分布：

由条件概率公式 $P (A B) = P (B) P (A ∣ B)$ , 结合上面的先验概率分布和条件概率分布，可得联合概率分布 $P (X, Y)$ （或者写成 $P (Y, X)$ ）
$\begin{aligned} P(Y,X) &= P(Y=c_k,X=x) \\ &= P(Y=c_k)P(X=x\mid Y=c_k) \end{aligned}$
生成模型(后验概率)：

根据全概率公式和贝叶斯公式：
$\begin{aligned} P(B|A) &= \frac{P(AB)}{P(A)} \\ &=\frac{P(B)P(A|B)}{P(A)}\\ &=\frac{P(B)P(A|B)}{\sum P(B)P(A|B)}\\ \quad \\ \Rightarrow P\left(Y=c_{k} \mid X=x\right)&= \frac{P\left(Y=c_{k} ,X=x\right)}{P(X=x)} \\ &=\frac{P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)}{P(X=x)}\\ &=\frac{P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)} \end{aligned}$
模型假设：条件独立性

条件概率分布 $P\left(X=x \mid Y=c_{k}\right)$ 有指数级数量的参数，若不假设各属性条件独立性，其估计实际是不可行的。
$\begin{aligned} P\left(X=x \mid Y=c_{k}\right) &=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} \mid Y=c_{k}\right) \\ &= P(X^{(1)}=x^{(1)} \mid Y=c_k) * P(X^{(2)}=x^{(2)} \mid Y=c_k) * \cdots \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right) \end{aligned}$
事实上, 假设 $x^{(j)}$ 可取值有 $S_{j}$ 个, $\cdots, n, Y$ 可取值有 $K$ 个, 那么参数个数为 $\prod\limits_{j=1}^{n} S_{j}$ 。

朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设, 朴素贝叶斯法也由此得名。
预测准则：后验概率最大（后面证明）

结合条件独立性，后验概率为
$\begin{aligned} y&=\arg\max_{c_k} P\left(Y=c_{k} \mid X=x\right)\\ &= \frac{P\left(Y=c_{k} ,X=x\right)}{P(X=x)} \\ &=\frac{P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)}{P(X=x)}\\ &=\frac{P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x \mid Y=c_{k}\right) P\left(Y=c_{k}\right)} \\ &=\frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)}, \quad k=1,2, \cdots, K \end{aligned}$
这是朴素贝叶斯法分类的基本公式。于是, 朴素贝叶斯分类器可表示为
$y=f(x)=\arg \max _{c_{k}} \frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)}$

1.6.2 后验概率最大化

朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择 0-1 损失函数:
$\begin{cases}1, & Y \neq f(X) \\ 0, & Y=f(X)\end{cases}$
式中 $f (X)$ 是分类决策函数。这时, 期望风险函数为
$R_{\exp }(f)=E[L(Y, f(X))]$
当损失函数期望最小时候，等价与后验概率最大化
$=\arg\max_{c_k} P\left(Y=c_{k} \mid X=x\right)$
最小化期望风险
$\begin{aligned} \arg\min R_{\exp }(f) & = \arg\min E[L(Y, f(X))] \\ & = \arg\min \sum_Y\sum_X L(Y, f(X))P(X,Y) \\ & = \arg\min \sum_Y\sum_X L(Y, f(X))P(Y|X)P(X) \\ & = \arg\min \sum_X \left\{\sum_Y L(Y, f(X))P(Y|X)\right\}P(X) \\ & = E_X \sum_Y L(Y=c_k, f(X))P(Y=c_k|X) \end{aligned}$
即期望是对联合分布 $P (X, Y)$ 取的。由此取条件期望
$R_{\exp }(f)=E_{X} \sum_{k=1}^{K}\left[L\left(Y=c_{k}, f(X)\right)\right] P\left(Y=c_{k} \mid X\right)$
为了使期望风险最小化, 只需对 $X = x$ 逐个极小化, 由此得到:
$\begin{aligned} f(x) &= \arg\min R_{\exp }(f) \\ & = \arg\min E[L(Y, f(X))] \\ & = \arg\min \sum_{k=1}^{K}\left[L\left(Y=c_{k}, f(X)\right)\right] P\left(Y=c_{k} \mid X\right) \\ \because L(Y, f(X))&= \begin{cases}1, & Y \neq f(X) \\ 0, & Y=f(X)\end{cases}\quad \mathcal{if}\quad f(X) = Y =c_k, then \quad L\left(Y=c_{k}, f(X)\right) = 0,\therefore L\left(Y=c_{k}, f(X)\right)= I[f(x)\neq c_k] \\ \Rightarrow & = \arg\min \sum_{k=1}^{K}I[f(x)\neq c_k]P\left(Y=c_{k} \mid X\right)\\ & = \arg\min \sum_{k=1}^{K} \left[1-I[f(x)= c_k]\right]P\left(Y=c_{k} \mid X\right)\\ & = \arg\min \sum_{k=1}^{K} \left\{P\left(Y=c_{k} \mid X\right)-I[f(x)= c_k]P\left(Y=c_{k} \mid X\right)\right\}\\ & = \arg\min \left\{\sum_{k=1}^{K}P\left(Y=c_{k} \mid X\right)-\sum_{k=1}^{K}I[f(x)= c_k]P\left(Y=c_{k} \mid X\right)\right\}\\ \because &\sum_{k=1}^{K}P\left(Y=c_{k} \mid X\right) = 1 \\ \Rightarrow& = \arg\min \left\{1-\sum_{k=1}^{K}I[f(x)= c_k]P\left(Y=c_{k} \mid X\right)\right\}\\ &\text{等价于} \\ \Rightarrow& = \arg\max \sum_{k=1}^{K}I[f(x)= c_k]P\left(Y=c_{k} \mid X\right) \end{aligned}$
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化
$\begin{aligned} f(x) &= \arg\min R_{\exp }(f) \\ & = \arg\max \sum_{k=1}^{K}I[f(x)= c_k]P\left(Y=c_{k} \mid X\right) \end{aligned}$
因为预测后验概率的最大，所以得找一个 $c_k$ ，使得 $I[f(x)= c_k]P(Y=c_{k} )$ 为真，这样一来，根据期望风险最小化准则就得到了后验概率最大化准则
$\arg\max_{c_k}P(Y=c_k\mid X=x)$

1.6.3 朴素贝叶斯的参数估计

根据上面的推导
$\begin{aligned} y&=\arg\max f(x)\\ &=\arg \max _{c_{k}} \frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)}\\ &\propto \arg \max _{c_{k}}P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right) \end{aligned}$
在朴素贝叶斯法中, 学习意味着估计 $P\left(Y=c_{k}\right)$ 和 $P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)$
极大似然估计：
1. 先验概率 $P\left(Y=c_{k}\right)$ 的极大似然估计是
  $P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \cdots, K$
2. 条件概率 $P\left(X^{(j)}=a_{j l} \mid Y=\right.$ $\left.c_{k}\right)$ 的极大似然估计是:(设第 $j$ 个特征 $x^{(j)}$ 可能取值的集合为 $\left\{a_{j 1}, a_{j 2}, \cdots, a_{j S_{j}}\right\}$ )
  $\begin{aligned} &P\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)} \\ &j=1,2, \cdots, n ; \quad l=1,2, \cdots, S_{j} ; \quad k=1,2, \cdots, K \end{aligned}$
  , $x_{i}^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征; $a_{j l}$ 是第 $j$ 个特征可能取的第 $l$ 个值; $I$ 为指示函数。
贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为 0 的情况。这时会影响到后验概率的计算结果, 使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体地：
1. 条件概率的贝叶斯估计是
  $P_{\lambda}\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda}$
  式中 $\lambda \geqslant 0$ 。等价于在随机变量各个取值的频数上赋予一个正数 $\lambda>0$ 。当 $\lambda=0$ 时就是极大似然估计。常取 $\lambda=1$ , 这时称为拉普拉斯平滑 (Laplacian smoothing)。显然, 对任何 $\cdots, S_{j}, k=1,2, \cdots, K$ , 有
  $\begin{aligned} &P_{\lambda}\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)>0 \\ &\sum_{l=1}^{S_{j}} P\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)=1 \end{aligned}$
  同样
2. 先验概率的贝叶斯估计是
  $P_{\lambda}\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda}$

1.6.4 朴素贝叶斯算法流程

算法 4.1 (朴素贝叶斯算法 (naïve Bayes algorithm）)
输入: 训练数据 $T=\left\{ (x_i,y_i)\right\}_{i=1}^N$ , 其中 $x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots\right.$ , $\left.x_{i}^{(n)}\right)^{\mathrm{T}}, x_{i}^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征, $x_{i}^{(j)} \in\left\{a_{j 1}, a_{j 2}, \cdots, a_{j} S_{j}\right\}, a_{j l}$ 是第 $j$ 个特征可能取的第 $l$ 个值, $\cdots, n, l=1,2, \cdots, S_{j}, y_{i} \in\left\{c_{1}, c_{2}, \cdots, c_{K}\right\}$ ; 实例 $x$ ;

输出：实例 $x$ 的分类。
(1) 计算先验概率及条件概率
1. 先验概率
$P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \cdots, K$
1. 条件概率
$P\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}\\ j=1,2, \cdots, n ; \quad l=1,2, \cdots, S_{j} ; \quad k=1,2, \cdots, K$

(2) 对于给定的实例 $x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{\mathrm{T}}$ , 计算
$P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right), \quad k=1,2, \cdots, K$
（3）确定实例 $x$ 的类
$y=\arg \max _{c_{k}} P\left(Y=c_{k}\right) \prod^{n} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)$