1,提升分类准确率
1) 装袋:
书上给的例子是投票, 也就是 某个分类结果被越多的分类模型所认同(得出), 那么这个结果可以认为是正确的划分类。
具体是: 由不同的训练集得出不同的分类模型, 将未知数X 分类, 统计分类模型得出的结果,票数最高的为最后的划分类。即 多数表决
2)提升:
总的思想是:
1、给每个训练组赋予一个误分类的权值(表示分类难度?), 对于误分类率高的训练组进行多次训练(做难题所能获取的知识通常要比做简单题的还要多)。
2、对于不同分类模型,根据其错误率高低 分配一个权值,对于其表决结果乘上其权值再进行决策
3)提高类不平衡数据的分类准确率:
在某些问题,由于我们感兴趣的主类(正类)的元组少于其他类(负类),比如被欺诈的人的个数确实要远低于正常的个数的。这个时候我们采用一下方法:
1、过抽样: 复制正类元组,直到与负类达到一定比例
2、欠抽样: 减少负类元组,直到与正类达到一定比例
3、阈值移动: 设置一个阈值t 对于f(X) >= t 的元组视为正类的, 其他元组视为负类