一、 问题描述
——鸢尾花数据集最小错误率贝叶斯分类
iris是鸢尾植物数据集,存储了其萼片和花瓣的长宽,共4个特征属性(记萼长为属性1,萼宽为属性2,花瓣长为属性3,花瓣宽为属性4),鸢尾植物分三类。该数据集一共包含4个特征变量,1个类别变量。共有150个样本,鸢尾有三个亚属,分别是山鸢尾 (Iris-setosa,即类别1),变色鸢尾(Iris-versicolor,即类别2)和维吉尼亚鸢尾(Iris-virginica,即类别3)。现在基于最小错误率贝叶斯决策,根据不同的特征属性对测试样本进行分类,使得分类结果的错误率最小。
二、 实现思想
原理:在一般的模式识别问题中,人们的目标往往是尽量减少分类的错误,追求最小的错误率,即求解一种决策规则,使得
这就是基于最小错误率的贝叶斯决策。
由P(e|x)≥0,P(x)≥0对于所有的x均成立,故minP(e)等同于对所有的x最小化P(e|x),即使后验概率P(ωi|x)最大化。根据贝叶斯公式
对于所有类别,分母都是相同的,所以决策的时候实际上只需要比较分子,即
先验概率P(ωi)和类条件概率密度P(x|ωi)是已知的。概率密度P(x|ωi)反映了在ωi类中观察到特征值x的相对可能性。
对于多类别决策,错误率的计算量较大,可以转化为计算平均正确率P(c)来计算错误率:
步骤:
(1)对数据进行处理
在每个类别的样本中分别取40个样本,作为训练样本(共120个),余下样本作为测试样本(共30个),
(2) 求出每类训练样本的均值
(3) 求出每类训练样本的协方差矩阵
(4) 求出每类训练样本的协方差矩阵的逆矩阵
(5)求出每类训练样本的协方差矩阵的行列式值
(6)求出各类别的先验概率和后验概率
三、 结果展示
运行程序得测试样本分类图界面,这里每次取3个不同特征属性进行多次实验作出分类图(图1,图2,图3,图4)
ps:为了让分类图更直观,部分图是经过旋转得来的。