朴素贝叶斯

最新推荐文章于 2021-08-19 16:52:16 发布

Matrix-yang

最新推荐文章于 2021-08-19 16:52:16 发布

阅读量167

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_21768483/article/details/88188722

版权

机器学习专栏收录该内容

42 篇文章 12 订阅

订阅专栏

1.贝叶斯公式

$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum _k {P(X=x|Y=c_k)P(Y=c_k)}}$

条件独立性假设：
每个特征之间相互独立
由此可对 $P(X=x|Y=c_k)$ 变形
$\begin{aligned} P(X=x|Y=c_k) =P(X^{(1)} &=x^{(1)},X^{(2)}=x^{(2)}...X^{(n)}=x^{(n)}|Y=c_k) \\ &= \prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned}$

贝叶斯公式转换成：
$P(Y=c_k|X=x)=\frac{\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)P(Y=c_k)}{\sum _k {P(X=x|Y=c_k)P(Y=c_k)}}$

$c_k$ 是样本的第K类的标签， $x^{(n)}$ 是样本 $x$ 第n个特征的取值

所以当判断样本 $x$ 属于那个分类时只需求得所有 $P(Y=c_(1,2,3...k)|X=x)$ 并选择最大的 $c_k$ 作为分类标签，即
$\max_{c_k}{\frac{\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)P(Y=c_k)}{\sum _k {P(X=x|Y=c_k)P(Y=c_k)}}}$
由于对所有 $c_k$ 来说，他们的分子是一样的，所以只需求得：
$\max_{c_k}{\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)P(Y=c_k)}$
（此为后验概率最大化准则的分类器公式）

2.损失函数

$L(Y,f(x))=\left\{ \begin{aligned} 1 & , & (Y \neq f(x)) \\ 0 & , & (Y=f(x)) \end{aligned} \right.$
期望风险
$R_{exp}=E_x \sum_{k=1}^{K}(L(c_k,f(x)) P(c_k|X))$
期望风险越小越好，整体损失越小，由最小期望风险也可以推导
$\begin{aligned} f(x) &=arg \min \sum_{k=1}^{K}(L(c_k,y) P(c_k|X=x)) \\ &=arg \min \sum_{k=1}^{K}P(c_k != y|X=x)\\ &= arg \min (1-P(c_k = y|X=x))\\ &= arg \max P(c_k = y|X=x) \end{aligned}$
和上述分类器原理一直，由此可知上述分类器公式满足期望风险最小

3.参数估计方法

3.1极大似然估计

简单来说就是直接数样本，把样本中出现 $c_k$ 的概率当做 $c_k$ 在自然界中自己生成的概率。
$P(Y=c_k)=\frac{\sum_{i=1}^N I(y_i=c_k)}{N}$
含义：标签为 $c_k$ 的样本数占总样本数的比例
$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N I(x^{j}_i=a_{jl},y_i=c_k)}{\sum_{i=1}^N I(y_i=c_k)}$
含义：样本标签为 $c_k$ 样本中样本 $x$ 第j个特征取值= $a_{jl}$ 所占的比例

3.2贝叶斯估计

使用极大似然估计可能会导致都要估计的概率值为0，
$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N I(x^{j}_i=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^N I(y_i=c_k) + S_j \lambda}$
$\lambda$ 为正数，
$\lambda=0$ 是就是极大似然估计
$\lambda=1$ 时被称为拉普拉斯平滑
$s_j$ 为样本 $x$ 标签为 $c_k$ 且第j个特征所有取值的数量