OneR算法
内容来源于《Python数据挖掘入门与实践》
在末尾有源代码,但需要使用Jupyter notebook,大家可以去我的另一篇文章找安装教程。http://blog.csdn.net/xinan_zxy/article/details/78935571
文中的涉及到的错误率概念,大家可以去我的另一篇文章了解。http://blog.csdn.net/xinan_zxy/article/details/78994611
OneR算法的思路很简单,它根据已有数据中,具有相同特征值的个体最可能属于哪个类别进行分类。 OneR是One Rule(一条规则)的简写,表示我们特征中分类效果最好的一个用作分类依据。一些分类算法比起OneR要复杂很多,但这个看似不起眼的简单算法,在很多真实数据集上表现得也不凡。
1.思路解析
对于OneR算法的介绍,我们使用Python语言和著名的Iris植物分类数据集。
关于Iris植物分类数据集的介绍,大家可以上查看这里https://baike.baidu.com/item/IRIS/4061453?fr=aladdin
数据集的特征为连续值,而我们即将使用的算法使用类别型特征值,因此我们需要把连续值转变为类别型,这个过程叫作离散化(具体操作下一步会详细介绍)。
经过离散化的Iris数据集如下
sepal length | sepal width | petal length | petal width | class |
---|---|---|---|---|
0 | 1 | 0 | 0 | 0 |
0 | 0 | 0 | 0 | 0 |
0 | 1 | 0 | 0 | 0 |
… | … | … | … | … |
1 | 0 | 1 | 1 | 2 |
1 | 1 | 1 | 1 | 2 |
1 | 0 | 1 | 1 | 2 |
经过离散化的Iris数据集每个特征值为0或1,而类别class为0或1或2。
现在,我们需要计算数据集中每个特征的每个特征值,与类别class的关系。详细如下:
当sepal length取0时,类型为0的错误率为SL00;
当sepal length取0时,类型为1的错误率为SL01;
当sepal length取0时,类型为2的错误率为SL02;
比较SL00、SL01、SL02的大小,取最小值,表明错误率最低。(假设SL00<SL01<SL02)
当sepal length取1时,类型为0的错误率为SL10