Python数据挖掘-OneR算法简介

最新推荐文章于 2024-04-30 11:32:30 发布

Black_lafier

最新推荐文章于 2024-04-30 11:32:30 发布

阅读量1.5k

点赞数 1

分类专栏：数据挖掘文章标签： Python OneR 机器学习数据挖掘

本文链接：https://blog.csdn.net/XinAn_ZXY/article/details/78996182

版权

本文介绍了Python中OneR算法的思路解析和代码实现，该算法基于数据集中特征值与类别的错误率关系建立分类规则。文章使用Iris植物分类数据集，通过离散化处理连续值并计算每个特征的错误率，选取错误率最低的特征作为分类依据。最后，文章给出了Python代码示例，展示如何训练和预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

OneR算法

内容来源于《Python数据挖掘入门与实践》

在末尾有源代码，但需要使用Jupyter notebook，大家可以去我的另一篇文章找安装教程。http://blog.csdn.net/xinan_zxy/article/details/78935571

文中的涉及到的错误率概念，大家可以去我的另一篇文章了解。http://blog.csdn.net/xinan_zxy/article/details/78994611

OneR算法的思路很简单，它根据已有数据中，具有相同特征值的个体最可能属于哪个类别进行分类。 OneR是One Rule（一条规则）的简写，表示我们特征中分类效果最好的一个用作分类依据。一些分类算法比起OneR要复杂很多，但这个看似不起眼的简单算法，在很多真实数据集上表现得也不凡。

1.思路解析

对于OneR算法的介绍，我们使用Python语言和著名的Iris植物分类数据集。

关于Iris植物分类数据集的介绍，大家可以上查看这里https://baike.baidu.com/item/IRIS/4061453?fr=aladdin

数据集的特征为连续值，而我们即将使用的算法使用类别型特征值，因此我们需要把连续值转变为类别型，这个过程叫作离散化(具体操作下一步会详细介绍)。
经过离散化的Iris数据集如下

sepal length	sepal width	petal length	petal width	class
0	1	0	0	0
0	0	0	0	0
0	1	0	0	0
…	…	…	…	…
1	0	1	1	2
1	1	1	1	2
1	0	1	1	2

经过离散化的Iris数据集每个特征值为0或1，而类别class为0或1或2。

现在，我们需要计算数据集中每个特征的每个特征值，与类别class的关系。详细如下：
当sepal length取0时，类型为0的错误率为SL00；
当sepal length取0时，类型为1的错误率为SL01；
当sepal length取0时，类型为2的错误率为SL02；
比较SL00、SL01、SL02的大小，取最小值，表明错误率最低。（假设SL00<SL01<SL02）
当sepal length取1时，类型为0的错误率为SL10

最低0.47元/天解锁文章