在模式分类问题中可以利用贝叶斯公式得到使错误率最小的分类规则。以实验问题提到的两类分类问题为例:已知先验分布和观测值的类条件分布。问题:对某个样本X,
已知先验概率和观测值的类条件分布,根据贝叶斯公式可以计算出后验概率
以后验概率为判决函数,决策规则为选择,中较大的值对应的类作为决策结果。此种决策方式使得在观测值X下的条件错误率最小。
1.3.2 最小风险贝叶斯决策
首先在已知先验概率和观测值的类条件分布,根据贝叶斯公式可以计算出后验概率
接着利用计算出的后验概率及决策表,按照下面的公式计算出采取的条件风险
最后对上一步得到的a个条件风险值进行比较,找出使其条件风险最小的决策,该就是最小风险贝叶斯决策。
1.4 实验原始记录
1.4 实验结果与分析
问题一:根据最小错误率贝叶斯决策,完成分类器设计,画出后验概率的分布曲线以及分类的结果示意图。
样本序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
分类结果 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
样本序号 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 |
分类结果 | 1 | 2 | 1 | 2 | 2 | 2 | 1 | 1 | 1 | 2 | 1 | 2 |
问题二:根据最小风险贝叶斯决策和决策表画出相应的条件风险的分布曲线和分类结果,并比较最小错误贝叶斯决策和最小风险贝叶斯决策的结果。决策表如下:
决策状态 | ||
0 | 6 | |
2 | 0 |
根据最小风险贝叶斯的原理,通过计算条件风险得出分类结果,其分布曲线和分类结果如下:
样本序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
分类结果 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
样本序号 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 |
分类结果 | 2 | 2 | 1 | 2 | 2 | 2 | 1 | 1 | 1 | 2 | 1 | 2 |
对比最小错误率贝叶斯与最小风险贝叶斯可以发现测试样本1和样本13分类不同。出现差别的主要原因在于风险矩阵的引入。虽然最小错误率的贝叶斯决策可以找到正确率最高的分类结果,但在实际问题中,不同类别分类错误的代价可能不同,例如将有毒蘑菇分类成无毒蘑菇的代价远远大于将无毒蘑菇分类成有毒蘑菇的代价。因此根据实际情况人为的引入分类错误风险,会使得贝叶斯决策更加科学。
问题三:在损失矩阵为0-1损失函数时,比较最小错误贝叶斯与最小风险贝叶斯决策的结果。
0-1损失函数指的是在分类结果正确时风险为0,分类不正确时风险为1。决策表如下:
决策状态 | ||
0 | 1 | |
1 | 0 |
0-1损失函数对应的最小风险贝叶斯分类结果如下:
实验所给的24个测试样本分类结果如下:
样本序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
分类结果 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
样本序号 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 |
分类结果 | 1 | 2 | 1 | 2 | 2 | 2 | 1 | 1 | 1 | 2 | 1 | 2 |
与最小错误贝叶斯分类结果比较(如下图),不难发现分类结果完全一致。通过原理分析:最小错误贝叶斯实际上是特殊的最小风险贝叶斯,当损失矩阵为0-1函数时,两类细胞被分错时的风险(后果的严重程度)相同便为最小错误贝叶斯。最小错误贝叶斯适用于风险相同的情况,适用范围有限,而最小风险贝叶斯则是对这一缺点的改进。