1、几个特征相比更看重哪个,就把哪个排在前面,有利于高效的决策
香农:消除随机不确定性的东西
2、信息熵:
决策树的划分依据:——信息增益
特征A对于训练集D的信息增益g(D,A),定义为集合D的信息熵,与特征A给定条件下D的信息条件熵H(D|A)之差
3、随机森林
决策树的缺点:决策树学习者可以创建不能很好的推广数据过于复杂的树,这被称为过拟合
改进:减枝cart算法、随机森林
1)森林:包含多个决策树的分类器
训练了5个树,4个结果是是True,1个树是False,最终投票结果是True
2)随机:为了对一组训练集能产生不同的树,让这些树的众数预测的结果准确,要对训练集随机、特征随机
两个随机:
1)训练集随机:bootstrap 随机有放回的抽样
2)特征随机:
即:用N表示训练样本的个树,M表示特征的数目。
然后1)一次随机选出一个样本,重复N次(有可能出现重复样本) 2)随机选出m个特征,m<<M,建立决策树
决策树与随机森林
最新推荐文章于 2023-02-14 18:05:36 发布