Python数据挖掘-OneR算法简介

本文介绍了Python中OneR算法的思路解析和代码实现,该算法基于数据集中特征值与类别的错误率关系建立分类规则。文章使用Iris植物分类数据集,通过离散化处理连续值并计算每个特征的错误率,选取错误率最低的特征作为分类依据。最后,文章给出了Python代码示例,展示如何训练和预测。
摘要由CSDN通过智能技术生成

OneR算法

内容来源于《Python数据挖掘入门与实践》

在末尾有源代码,但需要使用Jupyter notebook,大家可以去我的另一篇文章找安装教程。http://blog.csdn.net/xinan_zxy/article/details/78935571
文中的涉及到的错误率概念,大家可以去我的另一篇文章了解。http://blog.csdn.net/xinan_zxy/article/details/78994611

OneR算法的思路很简单,它根据已有数据中,具有相同特征值的个体最可能属于哪个类别进行分类。 OneR是One Rule(一条规则)的简写,表示我们特征中分类效果最好的一个用作分类依据。一些分类算法比起OneR要复杂很多,但这个看似不起眼的简单算法,在很多真实数据集上表现得也不凡。

1.思路解析

对于OneR算法的介绍,我们使用Python语言和著名的Iris植物分类数据集。

关于Iris植物分类数据集的介绍,大家可以上查看这里https://baike.baidu.com/item/IRIS/4061453?fr=aladdin

数据集的特征为连续值,而我们即将使用的算法使用类别型特征值,因此我们需要把连续值转变为类别型,这个过程叫作离散化(具体操作下一步会详细介绍)。
经过离散化的Iris数据集如下

sepal length sepal width petal length petal width class
0 1 0 0 0
0 0 0 0 0
0 1 0 0 0
1 0 1 1 2
1 1 1 1 2
1 0 1 1 2

经过离散化的Iris数据集每个特征值为0或1,而类别class为0或1或2。


现在,我们需要计算数据集中每个特征的每个特征值,与类别class的关系。详细如下:
当sepal length取0时,类型为0的错误率为SL00;
当sepal length取0时,类型为1的错误率为SL01;
当sepal length取0时,类型为2的错误率为SL02;
比较SL00、SL01、SL02的大小,取最小值,表明错误率最低。(假设SL00<SL01<SL02)
当sepal length取1时,类型为0的错误率为SL10

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值