目录
1. Zero-R
是一种常用的
:
是通过对样本集合进行统计,然后选用出现频率最高的样本类作为对所有测试集样本预测的结果。
例如一个数据集包含三类样本,标签分别是:
A | 1000 |
B | 500 |
C | 500 |
那么这个时候最多类是,占比是
,因此对于任何测试样本,这个
模型的预测结果都是
,而这个模型的正确率也就是
。
模型不涉及任何特征的使用:
只有对于预测样本类别有用。
2. One-R
:
只使用一组特征来构建模型并预测标签。
实际流程:
对于每个特征:
- 针对每个特征中所有不同的取值,计算这个取值的弱势标签数
。
- 将所有取值的弱势标签数求和,除以所有的样本数
,得到
以这个特征构建
时候的错误概率
比对每个特征的结果并选出拥有最高分类概率的特征作为标准,在测试集中进行样本预测。
例子:
对这个特征进行构建
模型:
中对于
和
的数量分别是
;所以对于
来说,把
标签看做是优势标签,而
标签被认为是弱势标签,因此
的弱势样本数是
个。
同理,中的
的弱势样本数是
,
个;
的弱势样本是
,
个。所以整个
特征对于标签的错误率是
。
再计算特征对于标签的错误率是
。
综上:规则的表现优于
。我们选
作为
的特征。
再来看一个有更多特征的例子:
根据上面的结果,我们的模型会基于
或者
来构建。
我们把