7.1 贝叶斯决策论
对于分类任务,贝叶斯决策论是在所有相关概率都已知的理想情形下,考虑如何基于概率和误判损失来选择最优的类别标记。
假设有N种可能的类别标记,即 Y = { c 1 , c 2 , . . . , c N } Y=\{c_1,c_2,...,c_N\} Y={
c1,c2,...,cN}, λ i j \lambda_{ij} λij是将一个真实标记为 c j c_j cj的样本误分类为 c i c_i ci所产生的损失,那么我们可以基于后验概率来刻画把 x x x分类为 c i c_i ci损失期望
R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x) R(ci∣x)=j=1∑NλijP(cj∣x)
我们的任务是寻找一个判定准则 h h h,来最小化风险
R ( h ) = E x [ R ( h ( x ) ∣ x ) ] . R(h)=\mathbb{E}_x[R(h(x)|x)]. R(h)=Ex[R(h(x)∣x)].
贝叶斯判定准则:为了最小化总体风险,只需要在每个样本上选择能使条件风险 R ( c ∣ x ) R(c|x) R(c∣x)最小的类别标记,即
h ∗ ( x ) = arg min c ∈ y R ( c ∣ x ) h^*(x)=\mathop{\arg\min}\limits_{c\in y} R(c|x) h∗(x)=c∈yargminR(c∣x)
此时,我们把 h ∗ h^* h∗称为贝叶斯最优分类器,与之对应的,我们称 R ( h ∗ ) R(h^*) R(h∗)为贝叶斯风险, 1 − R ( h ∗ ) 1-R(h^*) 1−R(h∗)反映了分类器能达到的最好性能。
如果我们额目标是最小化分类错误率,那么误判损失 λ i j \lambda_{ij} λij可写为
λ = 1 − I ( i , j ) \lambda=1-\mathbb{I}(i,j) λ=1−I(i,j)
那么这个时候的条件风险就可以表示为
R ( c ∣ x ) = 1 − p ( c ∣ x ) R(c|x)=1-p(c|x) R(c∣x)=1−p(c∣x)
最优分类器就等价于
h ∗ ( x ) = arg max c ∈ y P ( c ∣ x ) h^*(x)=\mathop{\arg\max}\limits_{c\in y} P(c|x) h∗(x)=c∈yargmaxP(c∣x)
这里给出生成式模型与判别式模型的概念。
所谓生成式模型,指的是先对 P ( c , x ) P(c,x) P(c,x)进行建模,然后再得到 P ( c ∣ x ) P(c|x) P(c∣x);而判别式模型则是直接对 P ( c ∣ x ) P(c|x) P(c∣x)进行建模,如我们前边介绍的决策树、SVM等。
对于生成式模型,由贝叶斯公式
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c , x ) P ( x ) P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c,x)}{P(x)} P(c∣x)=P(x)P(c)P(x∣c)=P(x)