贝叶斯决策理论总结(上)
基础
- 先验概率: p ( w 1 ) p(w_1) p(w1)和 p ( w 2 ) p(w_2) p(w2)
- 类条件概率: p ( x ∣ w 1 ) p(x|w_1) p(x∣w1)和 p ( x ∣ w 2 ) p(x|w_2) p(x∣w2)
- 后验概率: p ( w i ∣ x ) = p ( x ∣ w i ) p ( w 2 ) p ( x ) p(w_i|x)=\frac {p(x|w_i)p(w_2)}{p(x)} p(wi∣x)=p(x)p(x∣wi)p(w2)
- 似然函数:
l i k l i h o o d ( x ) = p ( x ∣ w 1 ) p ( x ∣ w 2 ) > p ( w 1 ) p ( w 2 ) , 则 表 示 x ∈ w 1 l i k l i h o o d ( x ) = p ( x ∣ w 1 ) p ( x ∣ w 2 ) < p ( w 1 ) p ( w 2 ) , 则 表 示 x ∈ w 2 liklihood(x)=\frac{p(x|w_1)}{p(x|w_2)}>\frac{p(w_1)}{p(w_2)},则表示x\in w_1 \\ liklihood(x)=\frac{p(x|w_1)}{p(x|w_2)}<\frac{p(w_1)}{p(w_2)},则表示x\in w_2 liklihood(x)=p(x∣w2)p(x∣w1)>p(w2)p(w1),则表示x∈w1liklihood(x)=p(x∣w2)p(x∣w1)<p(w2)p(w1),则表示x∈w2
这种形式也可以表示为对数形式:
h ( x ) = − l n l i k l i h o o d ( x ) = − l n p ( x ∣ w 1 ) + l n p ( x ∣ w 2 ) < l n p ( w 1 ) p ( w 2 ) , 则 表 示 x ∈ w 1 h ( x ) = − l n l i k l i h o o d ( x ) = − l n p ( x ∣ w 1 ) + l n p ( x ∣ w 2 ) > l n p ( w 1 ) p ( w 2 ) , 则 表 示 x ∈ w 2 h(x)=-lnliklihood(x)=-lnp(x|w_1)+lnp(x|w_2)<ln\frac{p(w_1)}{p(w_2)},则表示x\in w_1 \\ h(x)=-lnliklihood(x)=-lnp(x|w_1)+lnp(x|w_2)>ln\frac{p(w_1)}{p(w_2)},则表示x\in w_2 h(x)=−lnliklihood(x)=−lnp(x∣w1)+lnp(x∣w2)<lnp(w2)p(w1),则表示x∈w1h(x)=−lnliklihood(x)=−lnp(x∣w1)+lnp(x∣w2)>lnp(w2)p(w1),则表示x∈w2
如果是二分类,则 p ( w 1 ∣ x ) + p ( w 2 ∣ x ) = 1 p(w_1|x)+p(w_2|x)=1 p(w1∣x)+p(w2∣x)=1,根据后验概率进行决策,这个过程就叫贝叶斯决策,其中 p ( x ) p(x) p(x)叫全概率。后验概率涉及一个具体的事物,而先验概率是泛指一类事物。 - 分类错误率 = 被错分的样本数 / 样本总数
p ( e ) = ∫ p ( e , x ) d x = ∫ p ( e ∣ x ) p ( x ) d x p(e)=\int p(e,x)dx=\int p(e|x)p(x)dx p(e)=∫p(e,x)dx=∫p(e∣x)p(x)dx
最小错误率可以写成:
m i n p ( e ) = ∫ p ( e , x ) d x = ∫ p ( e ∣ x ) p ( x ) d x minp(e)=\int p(e,x)dx=\int p(e|x)p(x)dx minp(e)=∫p(e,x)dx=∫p(e∣x)p(x)dx
错误率最小的决策就是使后验概率最大的决策。 - 损失函数 λ ( α i , w i ) \lambda (\alpha_i,w_i) λ(αi,wi), α i ∈ Ω \alpha_i \in \Omega αi∈Ω, w i ∈ Υ w_i \in \Upsilon wi∈Υ, Ω \Omega Ω是状态空间, Υ \Upsilon Υ是决策空间
- 条件期望损失:
R ( a l p h a i ∣ x ) = E [ λ ( a l p h a i , w i ) ] = ∑ j = 1 c λ ( α i , w j ) p ( w j ∣ x ) R(alpha_i|x)=E[\lambda(alpha_i,w_i)]=\sum_{j=1}^c\lambda(\alpha_i,w_j)p(w_j|x) R(alphai∣x)=E[λ(alphai,wi)]=j=1∑cλ(αi,wj)p(wj∣x)
表示样本 X X X采取某种决策 α \alpha α时的损失加权平均值,也叫条件风险。 - 期望风险: R = ∫ R ( α ( x ) ∣ x ) p ( x ) d x R=\int R(\alpha(x)|x)p(x)dx R=∫R(α(x)∣x)p(x)dx,反应了对整个特征空间所有X的取值都采用相应的决策所带来的风险。如果采用0-1损失函数时,最小错误贝叶斯决策就是最小风险贝叶斯决策。
贝叶斯分类器
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,选择具有最大后验概率的类作为该对象所属的类。
- 贝叶斯分类器 = 判别函数 + 决策面
- 判别函数:定义 g i ( x ) g_i(x) gi(x), i i i表示类别,每一类都对应一个判别函数。如果对于一切 j ≠ i j\ne i j=i 都有 g i ( x ) > g j ( x ) g_i(x)>g_j(x) gi(x)>gj(x),则表示 x ∈ w i x\in w_i x∈wi;同理 g i ( x ) < g j ( x ) g_i(x)<g_j(x) gi(x)<gj(x),则表示 x ∈ w j x\in w_j x∈wj。
- 决策面:多类问题中,特征空间被分为多个决策区域,相邻两个决策区域之间是由决策面分开的,且相邻两个决策区域在决策面上的判别函数相等, g j ( x ) = g i ( x ) g_j(x)=g_i(x) gj(x)=gi(x) 。
- 贝叶斯分类器可以表示为:分别计算n个判别函数,对n个判别函数进行比较,最终选取与最大判别值对应的类别的分类器。
基于正态分布的贝叶斯分类器
- 单变量正态分布概率密度: p ( x ) = 1 2 π σ e − ( x − μ ) 2 ( 2 σ ) 2 p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{(2\sigma)^2}} p(x)=2πσ1e−(2σ)2(x−μ)2
- 多变量正态分布概率密度: p ( x ) = 1 ( 2 π ) 1 2 ∣ Σ ∣ 1 2 e − 1 2 [ ( x − μ ) T Σ − 1 ( x − μ ) ] p(x)=\frac{1}{(2\pi)^{\frac {1}{2}}|\Sigma|^{\frac {1}{2}}}e^{-\frac{1}{2}[(x-\mu)^T\Sigma^{-1}(x-\mu)]} p(x)=(2π)21∣Σ∣211e−21[(x−μ)TΣ−1(x−μ)]
- 其中 μ \mu μ为均值 μ = E { x } = ∫ − ∞ ∞ x p ( x ) d x \mu=E\{x\}=\int_{-\infty}^\infty xp(x)dx μ=E{x}=∫−∞∞xp(x)dx
- 其中 σ 2 \sigma^2 σ2为方差 σ 2 = ∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x \sigma^2=\int_{-\infty}^\infty (x-\mu)^2p(x)dx σ2=∫−∞∞(x−μ)2p(x)dx
- 其中 Σ = E { ( x − μ ) ( x − μ ) T } \Sigma=E\{(x-\mu)(x-\mu)^T\} Σ=E{(x−μ)(x−μ)T}是 d ∗ d d*d d∗d的协方差矩阵。正态分布的样本主要集中在均值附近,其分散程度可以用标准差来表示。
- 多类判别函数: g i ( x ) = l n p ( x ∣ w 1 ) + l n p ( w 1 ) g_i(x)=lnp(x|w_1)+lnp(w_1) gi(x)=lnp(x∣w1)+lnp(w1)
- 那么基于正态分布的判别函数为: g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 l n 2 π − 1 2 l n ∣ Σ i ∣ + l n p ( w i ) g_i(x)=-\frac{1}{2}(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)-\frac {d}{2}ln2\pi-\frac{1}{2}ln|\Sigma_i|+lnp(w_i) gi(x)=−21(x−μi)TΣi−1(x−μi)−2dln2π−21ln∣Σi∣+lnp(wi)
- 决策面为: g i ( x ) = g j ( x ) g_i(x)=g_j(x) gi(x)=gj(x)
三种情况:
- 协方差矩阵相等且为对角阵,具有相等的方差;
- 协方差矩阵都相等,但各类均值向量是任意的;
- 协方差矩阵不相等。