一、随机森林算法简介:
Bagging算法:
1、从原始样本中使用bootstraping方法随机抽取n个训练样本,进行k轮抽取,得到k个训练集。训练集中元素可以有重复,k个训练集相互独立。
2、对于k个训练集,训练k个模型。
3、由投票决定分类结果。
决策树:
ID3,C4.5决策树的生成
输入:训练集D,特征集A,阈值eps 输出:决策树T
1、若D中所有样本属于同一类Ck,则T为单节点树,将类Ck作为该结点的类标记,返回T
2、若A为空集,即没有特征作为划分依据,则T为单节点树,并将D中实例数最大的类Ck作为该结点的类标记,返回T
3、否则,计算A中各特征对D的信息增益(ID3)/信息增益比(C4.5),选择信息增益最大的特征Ag
4、若Ag的信息增益(比)小于阈值eps,则置T为单节点树,并将D中实例数最大的类Ck作为该结点的类标记,返回T
5、否则,依照特征Ag将D划分为若干非空子集Di,将Di中实例数最大的类作为标记,构建子节点,由结点及其子节点构成树T,返回T
6、对第i个子节点,以Di