西瓜书笔记03：贝叶斯分类

最新推荐文章于 2024-05-11 12:42:28 发布

e卵石

最新推荐文章于 2024-05-11 12:42:28 发布

阅读量357

点赞数

本文链接：https://blog.csdn.net/qq_33476409/article/details/81737277

版权

贝叶斯分类

@[后验概率|最大似然估计|贝叶斯分类|吉布斯采样]

贝叶斯决策论

贝叶斯决策考虑如何基于概率和误判损失来选择最优的类别标记。

贝叶斯判定准则：最小化总体风险，只需在每个样本上选择使条件风险R(c|x)最小的类别标记，即 $h^{*}(x)=argminR(c|x)$ ，R(c|x)为样本x分类为c的期望损失。

R (c i | x) = \sum j = 1 N λ i j P (c j | x)

$R(c_{i}|x)=\sum_{j=1}^{N}\lambda _{ij}P(c_{j}|x)$
令

λij={0,1,i=1otherwise λ i j = { 0 , i = 1 1 , o t h e r w i s e $\lambda_{ij}=\left\{\begin{matrix}0, & i=1 \\1, & otherwise\end{matrix}\right.$ ，则

R(c|x)=1−P(c|x) R ( c | x ) = 1 − P ( c | x ) $R(c|x)=1-P(c|x)$ 。贝叶斯最优分类器为

h∗(x)=argmaxP(c|x) h ∗ ( x ) = a r g m a x P ( c | x ) $h^{*}(x)=argmaxP(c|x)$ 。

判别式模型：给点x，直接建模P(c|x)。如决策树、BP神经网络、支持向量基。
生成式模型：先建模P(x,c)，再得到P(c|x)，贝叶斯公式如下。

$P (c | x) = P ( x , c ) P ( x ) = P ( c ) P ( x | c ) P ( x )$ $P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(c)P(x|c)}{P(x)}$
其中，P(x|c)是似然，样本x相对于类标记c的类条件概率。

极大似然估计

参数估计有两种方案：
- 频率主义学派：参数未知，但是客观存在的固定值，所以优化似然函数确定参数值。
- 贝叶斯学派：参数是未观察到的随机变量。
极大似然估计源于频率主义学派。

假设样本是独立同分布， $D_{c}$ 是训练集D中c类样本集合，

P (D c | θ c) = \prod P (x | θ c)

$P(D_{c}|\theta_{c})=\prod P(x|\theta _{c})$
考虑到连乘下溢，数太小超出double范围，通常最大化对数似然求出

θ θ $\theta$ 。

m a x L L (θ c) = l o g P (D c | θ c) = \sum x \in D l o g P (x | θ c)

$max LL(\theta _{c})=logP(D_{c}|\theta _{c})=\sum_{x\in D}logP(x|\theta _{c})$

朴素贝叶斯分类器

朴素贝叶斯分类器假设所有属性相互独立，类先验概率 $P(x|c)$ 通常用“拉普拉斯修正”。
半朴素贝叶斯分类器适当考虑一部分属性间的相互依赖。常用“独依赖”，假设每个属性在类别外最多依赖一个其他属性。
$P (c | x) \propto P (c) \prod i = 1 d P (x i | c, p a i)$ $P(c|x)\propto P(c)\prod_{i=1}^{d}P(x_{i}|c,pa_{i})$
贝叶斯网借助有向无环图来刻画属性间的依赖关系，使用条件概率表来描述属性的联合概率分布。贝叶斯网近似推断常采用吉布斯采样，这是一种随机采样方法。
吉布斯采样
Q是待查询变量，如Q={好瓜，甜度}，证据变量E={色泽，敲声，根蒂}取值e={青绿，浊响，蜷缩}，查询目标是q={是，高}。吉布斯采样先随机产生一个与证据E=e一致的样本为初始点，然后对非证据变量采样，采样概率根据贝叶斯网获得。T次采样得到的与q一致的样本有 $n_{q}$ 个，则后验概率为
$P (Q = q | E = e) ≃ n q T$ $P(Q=q|E=e)\simeq \frac{n_{q}}{T}$

EM算法

EM算法是估计参数隐变量的利器。
E步：若参数 $\theta$ 已知，根据训练数据推断出最优隐变量Z值
M步：若Z值已知，则对参数 $\theta$ 极大似然估计

优缺点

优点：速度快，高偏离/低方差的分类器适合小训练集。
缺点：朴素贝叶斯属性独立的假设限制太多，贝叶斯网络很难确定拓扑依赖结构。

e卵石

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
西瓜书笔记03：贝叶斯分类

贝叶斯分类@[后验概率|最大似然估计|贝叶斯分类|吉布斯采样]贝叶斯决策论贝叶斯决策考虑如何基于概率和误判损失来选择最优的类别标记。贝叶斯判定准则：最小化总体风险，只需在每个样本上选择使条件风险R(c|x)最小的类别标记，即h∗(x)=argminR(c|x)h∗(x)=argminR(c|x)h^{*}(x)=argminR(c|x)，R(c|x)为样本x分类为c的期...
复制链接

扫一扫