规则算法
概念
- ZeroR:最简单的分类器或一种规则学习算法。即,对每一个未标记的案例,不考虑它党的特征值就把它预测为最常见的类;
- OneR或1R:通过选择单一规则来提高ZeroR的性能的分类器。即,用唯一最重要的特征或错误率最低的特征来分类;(优点:可读,实践中表现好;缺点:没利用其他特征的信息)
- IREP:第一次试图解决规则算法遇到大数据、噪声时的性能问题的算法;
- RIPPER算法或重复增量修建(Repeated incremental pruning to reduce produce error reduction):通过生长、修剪、优化生成多规则分类,采用“独立而治之的思想”(vs决策树“分而治之”),及先贪婪地增加特征(same决策树的信息增益原则),直到能完全划出一个子集或用完所有属性,若不能再熵减该规则就立刻被修剪,最后再用探索法优化算法。(优点:性能甚至可能超过决策树,模型比决策树更简单,对大数据和噪声数据有效,模型可读;缺点:处理数值型不理想)。
- IRPE++,.SLIPPER,TRIPPER....
来自决策树的规则
优:规则应用起来更简单
缺:1. 复杂;2. 有偏
此笔记来源于《机器学习与R语言》,加上了个人理解加工,仅作个人学习使用,若有侵权,请联系我们。
下期预告:
实战_识别有毒蘑菇
背景:需要一种简单可读的规则,用于无机器时人为判断,所以选用规则学习