统计学习方法四----朴素贝叶斯分类器

最新推荐文章于 2021-09-29 19:39:13 发布

MoonLer

最新推荐文章于 2021-09-29 19:39:13 发布

阅读量146

点赞数

分类专栏：统计学习

本文链接：https://blog.csdn.net/qq_40240102/article/details/108929168

版权

统计学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

/# 0. 概率
在模式识别领域的⼀个关键概念是不确定性的概念。它可以由测量的误差引起，也可以由数据集的有限⼤⼩引起。概率论提供了⼀个合理的框架，⽤来对不确定性进⾏量化和计算。
在概率图模型中，每个结点表⽰⼀个随机变量（或⼀组随机变量），链接表⽰这些变量之间的概率关系。

0.1 交叉熵

$=-\int p(x)lnq(x)dx$

0.2 相对熵(KL散度)

假设p(x) , q(x)是X中取值的angie概率分布,则p对q的相对熵是:
$=-\int p(x)ln q(x)dx - (-\int p(x)ln p(x)dx)\\ =\int p(x)ln\frac{p(x)}{q(x)}dx$

0.3 互信息

两个随机变量X,Y的互信息,定义为X,Y联合分布和独立分布乘积的相对熵.
$I (X, Y) = D (P (X, Y) ∣ ∣ P (X) P (Y))$

1. 概率公式

概率论两个最基本的规则:加和规则,乘积规则

sum rule

$\sum_Y P(X,Y)$

product rule
$P (X, Y) = P (Y ∣ X) P (X)$
条件概率公式

$\frac{P(AB)}{P(B)}$

全概率公式

$\sum_i P(A|B_{i})P(B_{i})$

贝叶斯公式
$P(B_{i}|A) = \frac{P(A|B_{i})P(B_{i})}{\sum_i P(A|B_{i})P(B_{i})}$

2. 先验/后验/似然

在了解以前,有另一个角度解释贝叶斯公式: 详见: 一个例子搞清楚（先验分布/后验分布/似然估计）

3. 朴素贝叶斯

3.1 模型

朴素贝叶斯第一步要求出一个联合分布概率P(X,Y)

$P(Y_{i}|X) = \frac{P(Y_{i},X)}{P(X)} \\ = \frac{P(X|Y_{i})P(Y_{i})}{\sum_i P(X|Y_{i})P(Y_{i})}$

由上式我们可以看到,我们可以将联合概率分解成两部分.先验分布 * 条件概率分布
我们看条件概率分布的形式:
$P(X=x|Y=c_{k}) = P(X^{(1)} = x^{(1)},...,X^{(n)} = x^{(n)}|Y=c_{k})$
假设 $x^{(j)}$ 取值有 $S_{j}$ 个,Y取值有K个,那么需要求的参数有 $\prod_{j = 1}^{n}S_{j}$ 个
为了简化计算,提出了"朴素假设"(条件独立性假设): 一个特征出现的概率与其他特征独立
原贝叶斯公式:
$P(y|x_{1},x_{2},....x_{n}) = \frac{P(y)P(x_{1},x_{2},....x_{n}|y)}{P(x_{1},x_{2},....x_{n})}$
由假设简化:
$P(y)P(x_{1},x_{2},....x_{n}|y) = P(y)\prod_{i = 1}^n P(x_{i}|y)$
由于分子 $P(x_{1},x_{2},....x_{n})$ 和y无关,不再考虑,因此可得
$P(y|x_{1},x_{2},....x_{n}) \propto P(y)\prod_{i = 1}^n P(x_{i}|y)$
得到朴素贝叶斯分类器(最大化后验概率)
$max_{c_{k}} P(Y = c_{k}) \prod_{j}P(X^{j} = x^{j} | Y = c_{k})$

注: <统计学习方法中>推导了由期望风险最小出发,导出最大后验概率的过程

3.2 策略(学习)

这里主要介绍如何估计贝叶斯分类器内的参数:
$P(Y = c_{k})$ 和 $P(X^{j} = x^{j} | Y = c_{k})$

3.2.1 最大似然估计

书上针对的是离散情况的讨论,直接根据频率统计得出概率
等以后遇到连续情况时再展开

3.2.2 贝叶斯估计

极大似然估计会出现概率为0的情况(比方说,某词未出现,统计频率为0,导致概率为0)
采用贝叶斯估计(其中条件概率的贝叶斯估计为)

$P_{\lambda}(X^{j} = a_{jl} | Y = c_{k}) = \frac{\sum_{i=1}^{N}I(x_{i}^{j} = a_{jl},y_{i} = c_{k} ) + \lambda}{\sum_{i = 1}^{N}I(y_{i} = c_{k} + S_{j}\lambda)}$

$\lambda$ 为正数,其实就是稍微修正了一下,避免出现零情况

4. 实例

感兴趣可以看一下一个朴素贝叶斯的简单例子:3. 垃圾邮件分类

参考

1. 一个例子搞清楚（先验分布/后验分布/似然估计）
2. 朴素贝叶斯分类器详细解析
 3. 从贝叶斯方法谈到贝叶斯网络

MoonLer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法四----朴素贝叶斯分类器

0. 概率     ~~~~~     在模式识别领域的⼀个关键概念是不确定性的概念。它可以由测量的误差引起，也可以由数据集的有限⼤⼩引起。概率论提供了⼀个合理的框架，⽤来对不确定性进⾏量化和计算。     ~~~~~     在概率图模型中，每个结点表⽰⼀个随机变量（或⼀组随机变量），链接表⽰这些变量之间
复制链接

扫一扫

专栏目录