鸢尾花数据集最小风险率贝叶斯分类
###一、问题描述
iris是鸢尾植物数据集,存储了其萼片和花瓣的长宽,共4个特征属性,鸢尾植物分三类。该数据集一共包含4个特征变量,1个类别变量。共有150个样本,鸢尾有三个亚属,分别是山鸢尾 (Iris-setosa,即类别1),变色鸢尾(Iris-versicolor,即类别2)和维吉尼亚鸢尾(Iris-virginica,即类别3)。现在基于最小风险率贝叶斯决策,根据不同的特征属性对测试样本进行分类,使得分类决策的风险最小。
###二、 实现思想
原理:为了分析,引入损失函数λ(αi,ωj)(i=1,2,…,a;j=1,2,…,m),这个函数表示当处于状态ωj时采取决策为αi所带来的损失。通常在已知先验概率P(ωj)及类条件概率密度P(X|ωj)(j=1,2,…,m)的条件下进行讨论的。
根据贝叶斯公式,后验概率为
当引入“损失”的概念后考虑错判所造成的损失时,就不能只根据后验概率的大小做决策,而必须考虑所采取的决策是否损失为最小。对于给定的X,如果采取决策αi(i=1,2,…,a),λ可以在m个λ(αi,ωj),j=1,2,…,m当中任取一个,其相应概率密度函数为P(ωj|X)。因此在采取决策αi情况下的条件期望损失为
在决策论中又把采取决策αi的条件期望损失R(αi|X)称为条件风险。由于X是随机向量的观察值,对于X的不同观察值,采取αi决策时,其条件风险的大小是不同的。所以究竟采取哪一种决策将随X的取值而定。决策α可以被看成随机向量X的函数,记为α(X),这里定义期望风险为
式中,dx是特征空间的体积元,积分在整个特征空间进行。期望风险R反映对整个特征空间所有X的取值都采取相应的决策α(X)所带来的平均风险;而条件风险R(αi|X)只是反映了对某一X的取值采取决策αi所带来的风险。显然,需要采取一系列决策α(X)使期望风险R最小。在考虑错判带来的损失时,我们希望损失最小。如果在采取每一个决策或行动时,都使其风险最小,则对所有的X做出决策时,其期望风险也必然最小,这样的决策就是最小风险贝叶斯决策。