[机器学习]贝叶斯分类器I

贝叶斯决策论

贝叶斯决策论实在概率框架下实施决策得基本方法。

对分类任务来说,在所有相关概率都已知得理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失选择最优得类别标记。

问题:

假设有 N N N种可能得类别标记,即 y = { c 1 , c 2 , ⋯   , c N } y=\left \{ c_1,c_2,\cdots,c_N \right \} y={c1,c2,,cN} λ i j \lambda_{ij} λij为将一个真实标记为 c i c_i ci的样本误标记为 c j c_j cj所产生的损失.

  • 条件风险: R ( c i ∣ x ) = ∑ N j = 1 λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{N}^{j=1}\lambda_{ij}P(c_j|x) R(cix)=Nj=1λijP(cjx)
  • 目标:于是我们的任务便是寻找一个判定准则 h : x ⟶ y h:x \longrightarrow y h:xy 以最小化总体风险: R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=E_x\left [ R(h(x)|x) \right ] R(h)=Ex[R(h(x)x)]
  • 结果: h ∗ ( x ) = a r g m i n c ∈ y R ( c ∣ x ) h^*(x)={argmin}_{c\in y }R(c|x) h(x)=argmincyR(cx) h ∗ ( x ) h^*(x) h(x)称为贝叶斯最优分类器。

若记 λ i j = { 0 , i = j 1 , i ≠ j \lambda_{ij}=\left\{\begin{matrix} 0,i=j \\ 1,i\ne j \end{matrix}\right. λij={0,i=j1,i=j,则条件风险 R ( c ∣ x ) = 1 − P ( c ∣ x ) R(c|x)=1-P(c|x) R(cx)=1P(cx),贝叶斯最优分类器为 h ∗ ( x ) = a r g m a x c ∈ y P ( c ∣ x ) h^*(x)={argmax}_{c\in y }P(c|x) h(x)=argmaxcyP(cx)

于是问题转化为估计 P ( c ∣ x ) P(c|x) P(cx),由贝叶斯定理 P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c|x)=\frac{P(c)P(x|c)}{P(x)} P(cx)=P(x)P(c)P(xc)
在这里插入图片描述

朴素贝叶斯分类器

朴素贝叶斯分类器(naive Bayes classifier)采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。

目标函数

P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) h n b ( x ) = a r g m a x c ∈ y P ( c ) ∏ i = 1 d P ( x i ∣ c ) \begin{matrix} P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_i|c) \\ \\ h_{nb}(x)={argmax}_{{c\in y }}P(c)\prod_{i=1}^{d}P(x_i|c) \end{matrix} P(cx)=P(x)P(c)P(xc)=P(x)P(c)i=1dP(xic)hnb(x)=argmaxcyP(c)i=1dP(xic)

求解

  1. 先验概率: P ( c ) = ∣ D c ∣ ∣ D ∣ P(c)=\frac{\left | D_c \right | }{\left | D \right | } P(c)=DDc
  2. 条件概率:
  • 离散属性:令 D c , x i D_{c,x_i} Dc,xi表示 D c D_c Dc中在第 i i i个属性上取值为 x i x_i xi的样本组成的集合,则: P ( x i ∣ c ) = ∣ D c , x i ∣ ∣ D c ∣ P(x_i|c)=\frac{\left | D_{c,x_i} \right | }{\left | D_c \right | } P(xic)=DcDc,xi
  • 连续属性:考虑概率密度函数,假定 p ( x i ∣ c ) ∼ N ( μ c , i , σ c , i 2 ) p(x_i|c)\sim N(\mu_{c,i},\sigma_{c,i}^2) p(xic)N(μc,i,σc,i2),则: P ( x i ∣ c ) = 1 2 π σ c , i e x p ( − ( x i − μ c , i ) 2 2 σ c , i 2 ) P(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp(-\frac{(x_i-\mu_{c,i})^2}{2\sigma_{c,i}^2} ) P(xic)=2π σc,i1exp(2σc,i2(xiμc,i)2)

补充

为避免其他属性携带信息被训练集中未出现的属性值抹去,在估计概率时通常要进行平滑,常用拉普拉斯修正
P ^ ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + N P ^ ( x i ∣ c ) = ∣ D c , x i ∣ + 1 ∣ D c ∣ + N i \begin{matrix} \hat{P}(c)=\frac{\left | D_c \right |+1 }{\left | D \right |+N } \\ \\ \hat{P}(x_i|c)= \frac{\left | D_{c,x_i} \right |+1 }{\left | D_c \right |+N_i } \end{matrix} P^(c)=D+NDc+1P^(xic)=Dc+NiDc,xi+1

半朴素贝叶斯分类器

半朴素贝叶斯分类器适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。

独依赖估计(ODE)

假设每个属性在类别之外最多依赖于一个其他属性,即 P ( c ∣ x ) ∝ P ( c ) ∏ i = 1 d P ( x i ∣ c , p a i ) P(c|x)\propto P(c)\prod_{i=1}^{d}P(x_i|c,pa_i) P(cx)P(c)i=1dP(xic,pai)

根据属性与其父节点的连接关系,有以下几种分类:

  • SPODE
  • TAN
  • AODE
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值