鸢尾花数据集最小风险率贝叶斯分类

最新推荐文章于 2024-07-24 19:56:38 发布

YUAN秦慕楚

最新推荐文章于 2024-07-24 19:56:38 发布

阅读量1.2k

点赞数 1

文章标签：分类机器学习人工智能 matlab

本文链接：https://blog.csdn.net/YCBen2020/article/details/125507629

版权

鸢尾花数据集最小风险率贝叶斯分类

###一、问题描述
iris是鸢尾植物数据集，存储了其萼片和花瓣的长宽，共4个特征属性，鸢尾植物分三类。该数据集一共包含4个特征变量，1个类别变量。共有150个样本，鸢尾有三个亚属，分别是山鸢尾 (Iris-setosa，即类别1)，变色鸢尾(Iris-versicolor，即类别2)和维吉尼亚鸢尾(Iris-virginica，即类别3)。现在基于最小风险率贝叶斯决策，根据不同的特征属性对测试样本进行分类，使得分类决策的风险最小。

###二、实现思想
原理：为了分析，引入损失函数λ（αi，ωj）（i=1，2，…，a；j=1，2，…，m），这个函数表示当处于状态ωj时采取决策为αi所带来的损失。通常在已知先验概率P（ωj）及类条件概率密度P（X｜ωj）（j=1，2，…，m）的条件下进行讨论的。
根据贝叶斯公式，后验概率为

当引入“损失”的概念后考虑错判所造成的损失时，就不能只根据后验概率的大小做决策，而必须考虑所采取的决策是否损失为最小。对于给定的X，如果采取决策αi（i=1，2，…，a），λ可以在m个λ（αi，ωj），j=1，2，…，m当中任取一个，其相应概率密度函数为P（ωj｜X）。因此在采取决策αi情况下的条件期望损失为

在决策论中又把采取决策αi的条件期望损失R（αi｜X）称为条件风险。由于X是随机向量的观察值，对于X的不同观察值，采取αi决策时，其条件风险的大小是不同的。所以究竟采取哪一种决策将随X的取值而定。决策α可以被看成随机向量X的函数，记为α（X），这里定义期望风险为

式中，dx是特征空间的体积元，积分在整个特征空间进行。期望风险R反映对整个特征空间所有X的取值都采取相应的决策α（X）所带来的平均风险；而条件风险R（αi｜X）只是反映了对某一X的取值采取决策αi所带来的风险。显然，需要采取一系列决策α（X）使期望风险R最小。在考虑错判带来的损失时，我们希望损失最小。如果在采取每一个决策或行动时，都使其风险最小，则对所有的X做出决策时，其期望风险也必然最小，这样的决策就是最小风险贝叶斯决策。