统计学习方法第四章笔记——朴素贝叶斯

最新推荐文章于 2021-03-17 10:16:04 发布

八月夏凉

最新推荐文章于 2021-03-17 10:16:04 发布

阅读量1.2k

点赞数

文章标签：朴素贝叶斯统计学习方法

本文链接：https://blog.csdn.net/u010366427/article/details/50769227

版权

4.1 模型介绍

　　模型的输入空间为 $χ∈R^n$ 的 $n$ 维向量，输出空间为类标记集合 $y=\{c_1,c_2,…c_k\}$ ， $X$ 是定义在 $χ$ 上的随机变量， $Y$ 是定义在 $y$ 上的随机变量， $P(X,Y)$ 是 $X$ 和 $Y$ 的联合分布，训练数据集 $T=\{(x_1,y_1 ),(x_2,y_2 ),…(x_n,y_n)\}$ 由 $P(X,Y)$ 独立同分布产生。
　　假设X各分量之间独立，根据贝叶斯公式则：

P (Y = c k │ X = x) = P ( X = x │ Y = c k ) P ( Y = c k ) \sum k P ( X = x | Y = c k ) P ( Y = c k )

$P(Y=c_k│X=x)=\frac{P(X=x│Y=c_k )P(Y=c_k)}{∑_kP(X=x|Y=c_k)P(Y=c_k)}$
我们的目标是：

y = a r g m a x c k P (Y = c k │ X = x) = a r g m a x c k P ( X = x │ Y = c k ) P ( Y = c k ) \sum k P ( X = x | Y = c k ) P ( Y = c k )

$y=argmax_{c_k}P(Y=c_k│X=x)=argmax_{c_k}\frac{P(X=x│Y=c_k )P(Y=c_k)}{∑_kP(X=x|Y=c_k)P(Y=c_k)}$
　　分子对于任意

ck $c_k$ 相同，故：

y = a r g m a x c k P (X = x │ Y = c k) P (Y = c k)

$y=argmax_{c_k}P(X=x│Y=c_k )P(Y=c_k)$
　　由此，我们的目标是根据数据估计

P(Y=ck) $P(Y=c_k)$ 以及

P(X=x│Y=ck) $P(X=x│Y=c_k)$ 。

4.2 后验概率最大化的意义

　　朴素贝叶斯的损失函数是期望风险最小化：

L (Y, f (X)) = {1, 0, Y \neq f (X) Y = f (X)

$L(Y,f(X))=\begin{cases}1,&Y≠f(X)\\0,&Y=f(X)\end{cases}$
其期望风险为：

R (f) = E [L (Y, f (X))]

$R(f)=E[L(Y,f(X))]$
但以上期望风险是联合概率的期望，条件期望如下：

R (f) = E [L (Y, f (X)) P (c k | X)]

$R(f)=E[L(Y,f(X))P(c_k |X)]$
为使期望风险最小化，只需对

X=x $X=x$ 逐个优化：

f (X) = a r g m i n y \sum K k = 1 L (c k, y) P (y = c k | X = x)

$f(X)=argmin_y∑_{k=1}^KL(c_k,y)P(y=c_k |X=x)$
最后可得：

f (X) = a r g m a x y P (y = c k | X = x)

$f(X)=arg max_yP(y=c_k |X=x)$

4.3 参数估计

　　用极大似然估计的话，先估计 $P(Y=c_k)$ ，其结果即数据中含 $Y=c_k$ 的数量占总数据的比重。然后估计 $P(X=x│Y=c_k )$ ，其结果即在 $Y=c_k$ 数据中 $X=x$ 者占总数目的比重。
　　考虑到有的类别没有数据，可能出现概率为0(但实际概率不会为0，只不过很小罢了)，则采用贝叶斯估计，其结果是分子加上常数 $λ$ ，分子加上常数 $nλ$ ，其中 $n$ 为 $Y=c_k$ 下 X <script type="math/tex" id="MathJax-Element-1051">X</script>的类别数量。