《统计学习方法》第四章

最新推荐文章于 2022-04-03 11:32:41 发布

Francis_s

最新推荐文章于 2022-04-03 11:32:41 发布

阅读量223

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/Francis_s/article/details/118280981

版权

统计学习方法专栏收录该内容

13 篇文章 0 订阅

订阅专栏

4.1 朴素贝叶斯

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法，求出后验概率最大的输出y，y就是一个类别标签（常用贝叶斯做一个分类器）

4.1.1 基本方法

了解贝叶斯关键就是了解公式上每一步都是代表着什么含义

设输入空间 $X\subseteq R^{n}$ ，输出空间为类标记集合 $y=\left \{ c_{1},c_{2},c_{3},......,c_{n} \right \}$ 且 $y \subseteq Y$ ,两个空间都是随机变量，且独立同分布。求 $P(Y|X)$

于是我们可以根据训练集得出联合概率分布 $P(X,Y)$ ，以及：

先验概率分布：

$P(Y=c_{k})$

条件概率分布：

$P(X=x|Y=c_{k})=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},......,X^{(n)}=x^{(x)}|Y=c_{k})$

因为朴素贝叶斯是作了条件独立性假设的，也就是上式的条件概率分布可以拆分为：

$P(X=x|Y=c_{k})=P(X^{(1)}=x^{(1)}|Y=c_{k})...P(X^{(n)}=x^{(n)}|Y=c_{k})$

$=\prod ^{(n)}_{j=1}P(X=x^{(j)})|Y=c_{k})$

在看一下贝叶斯的公式，差一个分母：

$P(Y=c_{k}|X=x)=\frac{P(Y=c{k})*P(X=x|Y=c_{k})}{P(X=x)}$

（我不知道这样理解对不对，如果错了，请指正指正）分母我把它理解为一个边缘概率分布（借鉴连续性随机变量）这里的分母就是表达，不管我当前Y取那一类，我只管输入数据X的分布，所以，我们可以将分母拆成多个联合分布：

$P(X)=P(Y=c_{1},X)+P(Y=c_{2},X)+...+P(Y=c_{n},X)$

然后，我们根据条件概率的公式去求右式的每一项，因为我们可以根据训练集收集到计算需要的信息：（取其中一项）

$P(Y=c_{k},X)=P(X|Y=c_{k})*P(Y=c_{k})$

于是我们整个贝叶斯公式可以更改为：

$P(Y=c_{k}|X=x)=\frac {P(Y=c_{k})*P(X=x|Y=c_{k})} {\sum_{j=1}^{j}P(X=x|Y=c_{k})*P(Y=c_{k})}$

因为朴素贝叶斯的输入空间各个随机变量都是独立的，于是我们可以继续改：

$P(X=Y=c_{k}|X=x)=\frac{P(Y=c_{k})*\prod _{j}P(X^{(j)}=x^{(j)}|Y=c_{k})}{\sum _{k}P(Y=c_{k})*\prod _{j}P(X^{(j)}=x^{(j)}|Y=c_{k})}$

上式就是朴素贝叶斯分类器，我们再往最外层套一个求最大值，并且我们发现，无论输出神标签，分母都是一个固定值，于是我们求最大值就等同于求分母的最大值，所以朴素贝叶斯分类器最后可以表示为：

$y=argmax_{c_{k}}P(Y=c_{k})*\prod _{j}P(X^{(j)}=x^{(j)}|Y=c_{k})$

接下来，我们要分析为什么要取最大值：

详细介绍请看：解释为什么求最大值以及我们最后得到一个结论，求后验概率最大化等同于求期望风险最小化

4.2.1 朴素贝叶斯法的参数估计（极大似然估计）

得到了贝叶斯朴素分类器后，我们就进行计算了

第一项可以表示为：

$P(Y=c_{k})=\frac {\sum^{N}_{i=1}I(y_{i}=c_{k})}{N}$ 其中N是所有样本总数

设第j个特征 $x^{(j)}$ 可能取值的集合为 $\left \{ a_{j1},a_{j2},.....,a_{jS_{j}} \right \}$ ，其中表示第Sj个特征的值，第二项可以表示为：

$P(X^{(j)}=a_{jl}|Y=c_{k)})=\frac{\sum^{N}_{i=1}I(x^{(j)}_i=a_{jl},y_{i}=c_{k})}{\sum^{N}_{i=1}I(y_{i}=c_{k})}$

其中：j=1...n; L=1...Sj; k=1...K

4.2.2 贝叶斯估计

如果我们直接用极大似然估计可能会出现要估计的概率为0的情况，这会导致最终的结果等于0，所以我们引入 $\lambda=1$ 拉普拉斯平滑取解决这个问题，从而形成贝叶斯估计：

对应的条件概率的贝叶斯估计：

$P(X^{(j)}=a_{jl}|Y=c_{k)})=\frac{\sum^{N}_{i=1}I(x^{(j)}_i=a_{jl},y_{i}=c_{k})+\lambda}{\sum^{N}_{i=1}I(y_{i}=c_{k})+s_{j}\lambda}$

先验概率的贝叶斯估计：

$P(Y=c_{k})=\frac {\sum^{N}_{i=1}I(y_{i}=c_{k}+\lambda)}{N+K\lambda}$

5.1 例子

Francis_s

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》第四章

4.1 朴素贝叶斯朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法，求出后验概率最大的输出y4.1.1 基本方法了解贝叶斯关键就是了解公式上每一步都是代表着什么含义设输入空间，输出空间为类标记集合...
复制链接

扫一扫

专栏目录