1.装袋
装袋就是从训练集中随机的选择K个组含,其中每个组合有D个训练元祖,用这D个训练原则构造分类器,总共会构造出K个分类器。
然后把要测试的元组输入每个分类器,统计各个分类器的分类标号,分类票数最多的胜,也即该元组属于这个分类。
2.提升和AdaBoost
提升就是迭代的学习分类器。
首先选取D个训练元组组成训练集,然后用此训练集训练出一个模型,给错误分类的元组赋予一个权重,表示更关注分错的元组。
第二次选择D个训练员组的时候,就有可能会选择到第一次赋值过的元组,然后用选择的数据进行构造分类器。此分类器在之前的基础上对训练集已经做了一部分的改进,所以会更偏重用户的需求,比如看重错例的比重。
依次类推,一次分类会更新一次训练集,一次一次的迭代K次。
AdaBoost是提升的一种很有效的方法。
--------------------------------------------------------------------------------------------------------------
构造分类器的过程:
1.首先赋予每一个元组的权重为1/d,随机抽取D个元组组成一个训练集
2.用此训练集构造训练模型M
3计算出M的错误率
4如果该错误率小于0.5,则构造一个关于该错误率的权重函数,每一个正确分类的元组乘以此权重
5更新训练集
6迭代的进行,共构造出K个分类模型。每一个分类模型构造结束之后,都会更新权值。
--------------------------------------------------------------------------------------------------------------
对元组X进行分类:
1构造分类器的投票权重,并赋予各个分类器
2对于相同类的分类器,求权值只和
3权值大的胜出
即该元组属于权值和大的那一类
3.随机森林
随机森林主要是有两个随机:
1训练样本数是随机的
2每个节点决定划分的属性数是随机的
上面提到的两种方法只是训练样本数是随机的,节点划分的属性数则是全部。