统计学习方法第4章朴素贝叶斯法习题答案

fxnfk

已于 2023-06-30 18:45:52 修改

阅读量8.6k

点赞数 7

分类专栏：数据挖掘统计学习方法文章标签：统计学习方法贝叶斯答案习题答案贝塔分布

于 2017-05-16 16:33:41 首次发布

本文链接：https://blog.csdn.net/familyshizhouna/article/details/72179540

版权

本文详细介绍了朴素贝叶斯法的统计学习方法，包括贝叶斯定理的应用，极大似然估计法与贝叶斯估计法下概率公式（4.8），（4.9），（4.10）和（4.11）的推导过程，以及在实际中的应用。内容涵盖联合概率分布、条件概率、参数估计和贝叶斯分类的后验概率最大化原则。

摘要由CSDN通过智能技术生成

1 描述

设输入空间 $\mathcal{X} \subseteq R^n$ 为 $n$ 维向量的集合，输出空间为类标记集合 $\mathcal{Y}=\{c_1,c_2,\dots,c_K\}$ 。输入为特征向量 $\in \mathcal{X}$ ，输出为类标记 $\in Y$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机变量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量。 $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集
$T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$ 由 $P (X, Y)$ 独立同分布产生。

2 推导

$P(Y|X)=\frac{P(XY)}{P(X)}=\frac{P(X|Y)P(Y)}{P(X)}$
$\begin{aligned} y=f(x)&=arg \max \limits_{c_k} \frac{P(X|Y=c_k)P(Y=c_k)}{P(X)} \\ &=arg \max \limits_{c_k} P(X|Y=c_k)P(Y=c_k) \\ &=arg \max \limits_{c_k} P(Y=c_k) \prod_jP(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned}$
朴素贝叶斯法是典型的生成学习方法。

3 含义

朴素贝叶斯分类用的是概率模型 $y = P (Y ∣ X)$ 。为什么要这样呢？
损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。
假设选择 $0 - 1$ 损失函数：
$L(Y,f(X))=\begin{cases} 1, & Y \neq f(X) \\ 0,& Y = f(X) \end{cases}$
这时，期望风险函数为
$\begin{aligned} R_{exp}(f)&=E[L(Y,f(X))] \\ &=E_X\sum_{k=1}^{K}L(c_k,f(X))P(c_k|X) \end{aligned}$
为了使期望风险最小化，只需对 $X = x$ 逐个极小化，由此得到：
$\begin{aligned} f(x)&=arg \min \limits_{y \in \mathcal{Y}} \sum_{k=1}^{K} L(c_k, y)P(c_k|X=x) \\ &=arg \min \limits_{y \in \mathcal{Y} }P(y \neq c_k | X=x) \\ &=arg \min \limits_{y \in \mathcal{Y}}(1-P(y=c_k|X=x)) \\ &=arg \max \limits_{y \in \mathcal{Y}}P(y=c_k|X=x) \end{aligned}$